单词/句子相似度。最好的方法是什么?

时间:2019-07-31 03:16:24

标签: python nlp

我需要为产品主数据构建一个算法,但我不确定最佳的NLP方法。该方案是: -我有产品黄金记录; -我还有许多其他产品目录需要协调; 例: -产品黄金记录:可乐和零可乐; -需要卤化的产品说明:可乐300毫升,可乐零300毫升,可乐零。

我需要一种通过相似性进行协调的算法,因为我必须考虑错别字,有时还要考虑句子中的某种产品。示例:可乐零JS MKT(JS和MKT是垃圾,但句子更类似于可乐零)。

我一直在测试一些NLP的句子相似性,例如单词袋,以及阅读其他方法,例如余弦相似度和Levenshtein距离。但是,我不知道哪种方法最适合我的情况。

您能帮助我了解实现我所需要的最佳方法吗?

1 个答案:

答案 0 :(得分:1)

通过使用余弦相似度和Levenshtein距离,我找到了两个很好的解决方案。就我而言,余弦相似度效果更好,因为我很容易在文本中找到了部分品牌名称,因此准确度达到了100%。矩阵替换(Levenshtein)也很好,但是由于数据集中的单词非常相似,我犯了一些错误。