python - 我可以使用spaCy来处理Twitter数据吗？

时间：2017-10-23 16:49:37

标签： python twitter nlp spacy

我刚刚发现了令人敬畏的spaCy（https://github.com/explosion/spaCy），它让NLP变得如此简单易用。我需要为我的研究提取一些NLP功能，使用这个工具肯定会简化这个过程。但是，我使用从Twitter帖子中提取的非正式文本。

从文献看来，由于数据的非正式和嘈杂性，Twitter的NLP需要不同的模型。研究人员发布了一些工具，例如http://www.cs.cmu.edu/~ark/TweetNLP和https://github.com/aritter/twitter_nlp。但是，它们不是很有用或可扩展。

有人知道spaCy是否适合Twitter数据上的NLP任务吗？

我在文档中找不到任何信息。

非常感谢提前。

大卫

答案 0 :(得分：1)

这个问题不够具体，无法简单回答。但这里有一些想法......其中许多适用于Twitter数据上的任何文本或自然语言处理。

<强>标记化

AFAIK，没有为Twitter中的文本设计的预构建的标记器。您可以使用方法here来容纳主题标签和@ -mentions。您还应该考虑修改禁用词列表。你可以从NLTK tweet tokenizer获得一些想法。

词性标注：

鉴于推特适用的标记化方案，对于spaCy的英语默认模型，POS标记准确性是正常的，至少对于形容词（这通常是人们想要的简单情感分析）。您对各种POS标记准确性的敏感程度取决于您要完成的任务。

命名实体识别：

在这里，这一切都取决于你想要做什么。对于围绕Apple产品的样本分析，真阳性率相当高，但误报率非常高。