我打算创建一个联盟网站(价格比较网站)。
众所周知,来自不同站点(Ecomm站点)的DATA(产品及其信息)在这些类型的价格比较网站中起着至关重要的作用。
我已经编写了脚本来废弃我感兴趣的网站上的产品数据并按预期工作。
更详细地说,我正在废弃以下常用参数并将其存储在我的数据库中。 1)产品标题,2)产品描述,3)价格,4)支付方式等 [仅供参考:我使用JSOUP API来废弃数据]
问题在这里开始:
我想将来自不同来源的产品[相同产品]分组 从这些网站中删除。
说明我的任务: 假设XYZ是在5个不同的网站上销售的产品,其产品标题有一些变化。
我从这5个网站中删除了数据,将其保存到我的数据库中,现在应该如何有效地将这些产品分组到单个组中。这样我就可以在我的网站的单个页面上显示5个不同的来源。
我不知道应该如何进行。
[字符串比较首先被认为是我想到的,但不认为我会长期工作。]
欢迎并赞赏任何建议/建议。
如果您需要任何进一步的信息,请随时添加评论。
-JS
答案 0 :(得分:0)
在初始阶段,您可以使用solr获得最佳分数,同时比较产品标题或其描述。
如果我们考虑用户方面,为什么要将产品视为常见产品,请更深入。这些是使产品变得普遍的特征。喜欢品牌,颜色,材料等等......
在将任何产品声明为通用产品时,为不同目录制作功能集字典。 那么对于同一个功能集我们可能有许多产品需要识别,在这种情况下你可以从solr获得帮助进行评分......
此外,您可以查看谷歌图片搜索API,最后有助于获得图像相似性评分。这将有助于寻找时尚目录的常用产品
希望它会有所帮助...