什么是比较文件的方法

时间:2016-12-03 12:29:57

标签: machine-learning nlp

最近我开始做一些标准化产品数据的研究。

超市经常以不同的价格销售相同的产品,比较这些价格很有用。要做到这一点,我们需要知道我们匹配每个超市的相同产品。问题是,超市在如何命名产品并在网站上列出产品时往往存在细微差别。我们需要一种可以标准化产品名称的工具,将两种不同命名的产品识别为同一产品,同时成功识别不同但名称相似的产品以及数量上的差异。例如,我想购买rasher,当你去搜索rasher时,我们将编码所有的rashers,即使命名不同并映射到HS代码,我想知道这个过程背后的技术是什么?

此外,我们需要将这些产品价格转换为标准单位,并将产品与世界贸易HS代码定义的组对齐。让我们说rasher的价格是每180克2.99欧元,但现在我想用一些技术将它改为每公斤16.62欧元,检查适当的自然语言技术,以确定哪种方法最能实现这些目标。

1 个答案:

答案 0 :(得分:0)

这取决于标题的差异类型,但现在我将解释两种不同的类型:

1-如果产品名称与前后单词分开,那么您可以使用“Apache lucene”等工具“索引”产品标题,只搜索产品名称,您将获得具有该标题的所有产品。

2-如果产品名称附带了后缀和前缀,那么您可以使用“编辑距离算法”来查找类似的产品。

对于问题的第二部分,您应该定义所有模式以捕捉重量,值等的差异,然后将它们统一起来。