我正在向我的网站展示大量产品。 我必须将来自不同网站的类似产品分组, 我已经抓取到我的数据库了。 因此,当搜索产品时,它也会显示来自其他网站的相同产品。
我尝试了以下方法
按产品标题分组
结果 - 失败,因为索尼Xperia Z,索尼Xperia Z(黑色)是相同的产品但标题不同,所以不能在同一组。所以错误率非常高。
按属性分组:
具有相似属性和值的产品放在一个组中。 但它非常慢,错误率也很高。 由于来自不同公司的不同产品可能具有相同的属性。
这是最好的方法。 请帮帮我。
提前谢谢。请说英语不好。
答案 0 :(得分:0)
我会尝试使用您的分组标题解决方案,但使用RegEx进行修改。或者只使用以下方法:
title1.contains(title2)
title1.startsWith(title2)
没有100%无错误的解决方案,所以我会添加这样的链接: “不是你的产品?点击这里” 从该组暂时删除产品并将其标记为“不确定”,以便您可以手动检查。
答案 1 :(得分:0)
您可以使用第一个字母和字典,然后使用mysql全文搜索和相关性排序。问题不是很清楚。还有levensthein距离和soundex()函数。