在scrapy中使用一个蜘蛛爬网多个域并从db加载域

时间:2018-01-31 12:39:32

标签: python web-scraping scrapy web-crawler scrapy-spider

我是python一词以及Scrapy的新手。

我的要求是来自多个网站或域的相同数据。 我想从银行自己的网站上获取所有银行产品的年费,年利率,卡名,卡片图像等信用卡数据。

由于有很多银行,每家银行都有自己的域名,所以我想从不同的银行信用卡页面获取相同类型的数据。

我已在数据库中存储银行信用卡页面的网址,并希望 抓取这些网址 并获取相关数据。

由于我想从所有网站获取相同类型的数据,我想使用仅针对此的单个蜘蛛。

所以我的问题是:

  1. 如何从db中加载url?
  2. 随着银行 网站更改 网站结构也发生变化,如何告诉scrapy根据银行网站或信用使用解析方法卡名?
  3. 我很抱歉,我无法巧妙地理解我的问题。

    谢谢你的到来。

1 个答案:

答案 0 :(得分:1)

请注意,我在大型项目中一直在这样做

scraped_link = tldextract.extract(response.url)
if 'website' == scraped_link[1] and 'com' == scraped_link[2]:
    #do domething

if 'website2' == scraped_link[1] and 'net' == scraped_link[2]:
    #do domething

if 'website3' == scraped_link[1] and 'com' == scraped_link[2]:
    #do domething