合并和比较每个文档的文本

时间:2019-05-17 07:25:35

标签: python python-3.x pandas nltk spacy

我刚刚开始学习NLP的工作原理。我现在可以做的是获取每个文档中特定单词的出现频率。但是我要做的是比较四个文档,比较它们的相似性和差异性,并显示每个文档中相似的单词和唯一的单词。

我的文档是使用熊猫导入的.csv格式。每行都有自己的情感。

1 个答案:

答案 0 :(得分:1)

说实话,您要提出的问题非常高,很难在这样的论坛上回答(也许是不可能的)。因此,以下一些想法可能会有所帮助:

您可以尝试使用[术语频率-文档反向频率(TFIDF)](https://en.wikipedia.org/wiki/Tf%E2%80%93idf)比较词汇表的异同。与您目前的词频分析相比,这并不是很大的一步。

要进行更详细的分析,用wordnet's 同义词集代替文档中的单词可能是个好主意。这样就可以在比实际单词本身更高的抽象水平上比较句子的含义。例如,如果您的每个文档都提及“飞机”,“火车”和“汽车”,则存在潜在的相似性(车辆参考),简单的单词比较将无法忽略。