我刚刚发现了令人敬畏的spaCy(https://github.com/explosion/spaCy),它让NLP变得如此简单易用。我需要为我的研究提取一些NLP功能,使用这个工具肯定会简化这个过程。但是,我使用从Twitter帖子中提取的非正式文本。
从文献看来,由于数据的非正式和嘈杂性,Twitter的NLP需要不同的模型。研究人员发布了一些工具,例如http://www.cs.cmu.edu/~ark/TweetNLP和https://github.com/aritter/twitter_nlp。但是,它们不是很有用或可扩展。
有人知道spaCy是否适合Twitter数据上的NLP任务吗?
我在文档中找不到任何信息。
非常感谢提前。
大卫
答案 0 :(得分:1)
这个问题不够具体,无法简单回答。但这里有一些想法......其中许多适用于Twitter数据上的任何文本或自然语言处理。
<强>标记化强>
AFAIK,没有为Twitter中的文本设计的预构建的标记器。您可以使用方法here来容纳主题标签和@ -mentions。您还应该考虑修改禁用词列表。你可以从NLTK tweet tokenizer获得一些想法。
词性标注:
鉴于推特适用的标记化方案,对于spaCy的英语默认模型,POS标记准确性是正常的,至少对于形容词(这通常是人们想要的简单情感分析)。您对各种POS标记准确性的敏感程度取决于您要完成的任务。
命名实体识别:
在这里,这一切都取决于你想要做什么。对于围绕Apple产品的样本分析,真阳性率相当高,但误报率非常高。