应用错误收集

我正在尝试学习网络抓取，并且我认为作为一个应用程序，我将构建一个聚合器，以对某些产品的零售商进行爬网，并对来自不同零售商的同一产品进行价格比较。

开始学习时，我确切地意识到这是一项艰巨的任务。

首先，我需要抓取具有多种格式的站点，这些站点不仅具有其DOM结构的格式，而且具有相同产品的名称，并且商品价格的格式和待售商品的价格略有不同。

第二，在以某种方式对DOM的x个站点进行解码之后（进行一两个站点很容易，但我想使搜寻器具有可扩展性！），并获取各种项目的数据。我需要能够比较相同产品的不同名称，以便可以比较零售商之间的不同价格（将它们转换为相同的货币，检查退回的价格是否为原始/销售价格，等等。。。）

我正在尝试使用Scrapy编写爬虫，但是有人可以推荐一种方法来使爬虫适应各种零售商，以及是否有任何图书馆/方法可以很好地解决比较喜欢的第二个问题。）项？