Python文本匹配 - 同义词

时间:2017-05-18 11:16:03

标签: python pandas nltk synonym textmatching

我在Pandas中有两列:A和B,每列包含术语字符串。我的目标是在B列中找到与A列最相似的条目。我已经使用TF-IDF来执行此操作,但有时会有一些明显不匹配的同义词,例如:金钱和货币。

如何找到包含同义词的匹配项?

1 个答案:

答案 0 :(得分:-1)

如果您正在使用单个单词对,我不确定TF-IDF将如何使用。

无论如何,有两个明显的解决方案。

使用传统知识库,我建议Wordnet用于此用例,它被广泛认为是行业标准。

第二种选择是使用机器学习算法Word2Vec(或像Glove这样的变体)。我会说这是最简单的解决方案,如果你使用的模型已经训练好像Google News那样。查看Gensim's implementation以加载模型并计算相似之处。