我在Pandas中有两列:A和B,每列包含术语字符串。我的目标是在B列中找到与A列最相似的条目。我已经使用TF-IDF来执行此操作,但有时会有一些明显不匹配的同义词,例如:金钱和货币。
如何找到包含同义词的匹配项?
答案 0 :(得分:-1)
如果您正在使用单个单词对,我不确定TF-IDF将如何使用。
无论如何,有两个明显的解决方案。
使用传统知识库,我建议Wordnet用于此用例,它被广泛认为是行业标准。
第二种选择是使用机器学习算法Word2Vec(或像Glove这样的变体)。我会说这是最简单的解决方案,如果你使用的模型已经训练好像Google News那样。查看Gensim's implementation以加载模型并计算相似之处。