我可以使用spaCy来处理Twitter数据吗?

时间:2017-10-23 16:49:37

标签: python twitter nlp spacy

我刚刚发现了令人敬畏的spaCy(https://github.com/explosion/spaCy),它让NLP变得如此简单易用。我需要为我的研究提取一些NLP功能,使用这个工具肯定会简化这个过程。但是,我使用从Twitter帖子中提取的非正式文本。

从文献看来,由于数据的非正式和嘈杂性,Twitter的NLP需要不同的模型。研究人员发布了一些工具,例如http://www.cs.cmu.edu/~ark/TweetNLPhttps://github.com/aritter/twitter_nlp。但是,它们不是很有用或可扩展。

有人知道spaCy是否适合Twitter数据上的NLP任务吗?

我在文档中找不到任何信息。

非常感谢提前。

大卫

1 个答案:

答案 0 :(得分:1)

这个问题不够具体,无法简单回答。但这里有一些想法......其中许多适用于Twitter数据上的任何文本或自然语言处理。

<强>标记化

AFAIK,没有为Twitter中的文本设计的预构建的标记器。您可以使用方法here来容纳主题标签和@ -mentions。您还应该考虑修改禁用词列表。你可以从NLTK tweet tokenizer获得一些想法。

词性标注:

鉴于推特适用的标记化方案,对于spaCy的英语默认模型,POS标记准确性是正常的,至少对于形容词(这通常是人们想要的简单情感分析)。您对各种POS标记准确性的敏感程度取决于您要完成的任务。

命名实体识别:

在这里,这一切都取决于你想要做什么。对于围绕Apple产品的样本分析,真阳性率相当高,但误报率非常高。