应用错误收集

时间：2019-05-17 07:25:35

标签： python python-3.x pandas nltk spacy

我刚刚开始学习NLP的工作原理。我现在可以做的是获取每个文档中特定单词的出现频率。但是我要做的是比较四个文档，比较它们的相似性和差异性，并显示每个文档中相似的单词和唯一的单词。

我的文档是使用熊猫导入的.csv格式。每行都有自己的情感。

答案 0 :(得分：1)

说实话，您要提出的问题非常高，很难在这样的论坛上回答（也许是不可能的）。因此，以下一些想法可能会有所帮助：

您可以尝试使用[术语频率-文档反向频率（TFIDF）]（https://en.wikipedia.org/wiki/Tf%E2%80%93idf）比较词汇表的异同。与您目前的词频分析相比，这并不是很大的一步。

要进行更详细的分析，用wordnet's 同义词集代替文档中的单词可能是个好主意。这样就可以在比实际单词本身更高的抽象水平上比较句子的含义。例如，如果您的每个文档都提及“飞机”，“火车”和“汽车”，则存在潜在的相似性（车辆参考），简单的单词比较将无法忽略。