我正在尝试学习网络抓取,并且我认为作为一个应用程序,我将构建一个聚合器,以对某些产品的零售商进行爬网,并对来自不同零售商的同一产品进行价格比较。
开始学习时,我确切地意识到这是一项艰巨的任务。
首先,我需要抓取具有多种格式的站点,这些站点不仅具有其DOM结构的格式,而且具有相同产品的名称,并且商品价格的格式和待售商品的价格略有不同。
第二,在以某种方式对DOM的x个站点进行解码之后(进行一两个站点很容易,但我想使搜寻器具有可扩展性!),并获取各种项目的数据。我需要能够比较相同产品的不同名称,以便可以比较零售商之间的不同价格(将它们转换为相同的货币,检查退回的价格是否为原始/销售价格,等等。。。)
我正在尝试使用Scrapy编写爬虫,但是有人可以推荐一种方法来使爬虫适应各种零售商,以及是否有任何图书馆/方法可以很好地解决比较喜欢的第二个问题。 )项?
答案 0 :(得分:0)
为进行比较,您可以将产品名称的字符串转换为列表,对其进行比较,然后设置阈值以确定两个产品是否相同。