应用错误收集

时间：2019-07-31 03:16:24

标签： python nlp

我需要为产品主数据构建一个算法，但我不确定最佳的NLP方法。该方案是： -我有产品黄金记录； -我还有许多其他产品目录需要协调；例： -产品黄金记录：可乐和零可乐； -需要卤化的产品说明：可乐300毫升，可乐零300毫升，可乐零。

我需要一种通过相似性进行协调的算法，因为我必须考虑错别字，有时还要考虑句子中的某种产品。示例：可乐零JS MKT（JS和MKT是垃圾，但句子更类似于可乐零）。

我一直在测试一些NLP的句子相似性，例如单词袋，以及阅读其他方法，例如余弦相似度和Levenshtein距离。但是，我不知道哪种方法最适合我的情况。

您能帮助我了解实现我所需要的最佳方法吗？

答案 0 :(得分：1)

通过使用余弦相似度和Levenshtein距离，我找到了两个很好的解决方案。就我而言，余弦相似度效果更好，因为我很容易在文本中找到了部分品牌名称，因此准确度达到了100％。矩阵替换（Levenshtein）也很好，但是由于数据集中的单词非常相似，我犯了一些错误。