匹配多个项目

时间:2013-07-22 16:39:18

标签: java machine-learning e-commerce nlp

我正在经营一家电子商务创业公司。我目前面临着从卖家门户输入多个项目时遇到的问题。理想情况下,当用户搜索该项目时,我会显示一个项目,而不是多次显示相同的项目(每个项目来自不同卖家的不同详细信息页面/图片)。

this类似

作为这项工作的一部分,我正在考虑使用NLP来比较多个项目描述页面并将它们组合在一起。有人可以帮我指出可以匹配来自不同卖家的多个项目的描述内容的算法或库。

我们正在使用Java,因此您建议的任何API都会有所帮助!

1 个答案:

答案 0 :(得分:2)

作为在该领域进行研究的人,我只能建议您阅读Data Matching by Peter Christen。它将指导您完成匹配过程,并介绍一些可以使用的技术。

然而,由于通用方法(倒排索引和某些相似性度量)表现不佳,整个问题有点困难。您的数据集中会有很多误报匹配,这通常会变成匹配候选人的人工审核流程。由于这非常昂贵,通常使用分类器来区分良好匹配和不太好或不匹配。但作为一个初创公司,你不会有很多训练数据来训练这样的监督分类器。

以下是我在日常工作中发现的一些快速提示:

  • 预计会有大量垃圾(配件业务在电子商务方面是最大的产品,并会废弃你的比赛)
  • 最好根据您的数据库标准
  • 正常化您的数据
  • 使用单词级模型而不是字符级模型(例如Bigram模型)
  • 使用产品名称和价格信息,所有其他属性通常都是巨大的垃圾桶