我有一句话,让我们说'美国'和一个文字文件。我想知道整个文件是否与美国有关。或不。美国'在文件中可以提到100或1000次,但到那天结束时,文件可能会谈论中国。
我在Python中浏览了情感分析库,但只有当doc以正面,负面或中性的方式提到单词时,这些库才会返回。
我还可以计算所提到的单词的次数,以及该单词与文档中每个单词之间的相似性,但仍然不知道如何判断整个文档是否与所提及的单词有关。
python中是否有任何库可以执行此操作或任何API?
答案 0 :(得分:1)
对此没有任何真正好的完整解决方案库。您可能希望使用类似NLTK的词来词干和分析(http://www.nltk.org)。词干是以下:"法拉利 - >跑车 - >汽车 - >运输",这使您可以看到" base"一个词的概念。
然后,您可能希望进行某种TF / IDF分析,以准确确定文档的内容。这有助于您确定哪些词很重要(http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html)。
可以在这里看到关于TF / IDF的好教程:http://stevenloria.com/finding-important-words-in-a-document-using-tf-idf/