搜刮多个站点以获取类似信息

时间:2018-08-20 21:13:56

标签: python web-scraping scrapy

我需要抓取多个不同的站点以获取相同的信息。基本上,我正在寻找类似的信息,但是这些站点可能属于不同的供应商,并且可以具有不同的HTML结构。例如,如果我试图在Barns&Nobles和Biblio中刮取与教科书有关的数据(只有两个,但可能很多),并获取书名,作者和书价,那怎么办?

https://www.barnesandnoble.com/b/textbooks/mathematics/algebra/_/N-8q9Z18k3

https://www.biblio.com/search.php?stage=1&result_type=works&keyisbn=algebra

当然,我可以分别解析这两个站点,但是我正在寻找一种通用的方法,该方法可以轻松地应用于其他供应商并提取相同的信息。

在一个单独但相关的问题中,我还想知道Google在搜索产品时如何显示来自不同来源的不同产品信息?例如,如果您搜索“ MacBook Pro”,则在页面顶部,您将获得来自不同供应商的产品轮播。我认为Google会自动从其他来源抓取此信息,以向用户建议可用的内容。

1 个答案:

答案 0 :(得分:1)

看看scrapely。如果您不想手动解析其他HTML结构,那么它真的很有帮助。