产品价格比较Algo

时间:2016-02-10 13:28:41

标签: php solr sphinx

我正在进行价格比较网站,我已经完成废品所有商店的产品数据(大约200+),现在我正面临着

显示数据的问题。

问题是每家商店都有其独特的产品名称,如

例如 Google Nexus 5

  • Nexus 5
  • Google Nexus 5
  • LG nexus 5
  • Google LG Nexus 5

佳能5D Mark III

的复杂示例
  • 佳能EOS 5D Mark III 24-105mm镜头套装(22百万像素,单反相机, 黑色)

  • 佳能EOS 5D MARK III + 24-105mm IS镜头

  • 佳能EOS 5D Mark III数码单反相机(仅机身)

  • 佳能EOS 5D Mark III套件(EF 24-105 F4L IS USM)

  • 佳能数码单反相机EOS 5D MARK III套件,配备22.3 MP和24-105mm F4L
    是USM镜头

  • 佳能5D Mark III人体数码单反相机

因此在搜索时我无法根据标题找出完全匹配。什么是废弃此数据或任何开源框架的最佳方法,这有助于我根据模型显示最佳结果。

1 个答案:

答案 0 :(得分:0)

这一切都取决于您要废弃的网站。有些网站有精确的模型,就像书籍的ISBN一样。在其他情况下,他们有自己独特的模型,例如亚马逊使用所谓的ASIN。

很长一段时间,您可以使用模糊逻辑来尝试匹配,但如果您能找到隐藏在页面某处的精确模型,那么它将更准确。