应用错误收集

时间：2017-09-06 15:49:32

标签： python python-2.7 python-3.x text sentiment-analysis

我有一句话，让我们说'美国＆＃39;和一个文字文件。我想知道整个文件是否与美国有关。或不。美国＆＃39;在文件中可以提到100或1000次，但到那天结束时，文件可能会谈论中国。

我在Python中浏览了情感分析库，但只有当doc以正面，负面或中性的方式提到单词时，这些库才会返回。

我还可以计算所提到的单词的次数，以及该单词与文档中每个单词之间的相似性，但仍然不知道如何判断整个文档是否与所提及的单词有关。

python中是否有任何库可以执行此操作或任何API？

答案 0 :(得分：1)

对此没有任何真正好的完整解决方案库。您可能希望使用类似NLTK的词来词干和分析（http://www.nltk.org）。词干是以下：＆＃34;法拉利 - ＆gt;跑车 - ＆gt;汽车 - ＆gt;运输＆＃34;，这使您可以看到＆＃34; base＆＃34;一个词的概念。

然后，您可能希望进行某种TF / IDF分析，以准确确定文档的内容。这有助于您确定哪些词很重要（http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html）。