将产品分组相同但标题/属性略有不同

时间:2013-06-21 09:44:30

标签: database performance algorithm search-engine

我正在向我的网站展示大量产品。 我必须将来自不同网站的类似产品分组, 我已经抓取到我的数据库了。 因此,当搜索产品时,它也会显示来自其他网站的相同产品。

我尝试了以下方法

  1. 按产品标题分组

    结果 - 失败,因为索尼Xperia Z,索尼Xperia Z(黑色)是相同的产品但标题不同,所以不能在同一组。所以错误率非常高。

  2. 按属性分组:

    具有相似属性和值的产品放在一个组中。 但它非常慢,错误率也很高。 由于来自不同公司的不同产品可能具有相同的属性。

  3. 这是最好的方法。 请帮帮我。

    提前谢谢。请说英语不好。

2 个答案:

答案 0 :(得分:0)

我会尝试使用您的分组标题解决方案,但使用RegEx进行修改。或者只使用以下方法:

title1.contains(title2)

title1.startsWith(title2)

没有100%无错误的解决方案,所以我会添加这样的链接: “不是你的产品?点击这里” 从该组暂时删除产品并将其标记为“不确定”,以便您可以手动检查。

答案 1 :(得分:0)

您可以使用第一个字母和字典,然后使用mysql全文搜索和相关性排序。问题不是很清楚。还有levensthein距离和soundex()函数。