我正在寻找像this这样的价格比较网站。所以问题是它如何知道来自两个不同站点的两个产品是相同的产品和两个相同的桶,以显示价格比较。
如果只有我能理解的书籍,所有书籍都有唯一的ISBN
号码,那么只需编写一些特定于网站的代码,这些代码将从网站上获取数据并进行比较。
e.g。你有两个网站:
www.xyz.com
www.pqr.com
现在这两个网站以不同的方式列出了他们的书籍,即html会有所不同,因此解析HTML并从中获取ISBN
,price
。比对应ISBN
我们可以把两个网站的价格。这很简单,但是如何解析那些没有id
独特且统一(如压力锅,手表等等)的产品,如ISBN。等网站。
感谢。
答案 0 :(得分:1)
其他产品也有识别号码,在欧洲,EAN
目前已转为名为GTIN
的全球号码。在电子商务中,通常使用亚马逊ID(ASIN
,其中ISBN
是子集)。
如果您没有这些号码(通常是这种情况),则需要一个名为Record Linkage
或Data Matching
的策略。
TL; DR 它通常使用字符串匹配算法来查找类似的“措辞”产品(例如,使用n-gram上的倒排索引)。最后,您可以使用机器学习来删除错误的匹配(误报)。这需要大量的训练数据(没有或太小的公共数据集可用),因此大多数时候人类将检查这些匹配。
有关问题的更详细分析,我只建议您阅读本书Data Matching by Peter Christen。它深入到信息检索(如何找到类似的产品),然后如何使用机器学习(例如通过结构分析)来挑选错误或正确的匹配。
网上也有很多论文,所以结帐his scholar profile。