Question

我是python一词以及Scrapy的新手。

我的要求是来自多个网站或域的相同数据。我想从银行自己的网站上获取所有银行产品的年费，年利率，卡名，卡片图像等信用卡数据。

由于有很多银行，每家银行都有自己的域名，所以我想从不同的银行信用卡页面获取相同类型的数据。

我已在数据库中存储银行信用卡页面的网址，并希望 抓取这些网址 并获取相关数据。

由于我想从所有网站获取相同类型的数据，我想使用仅针对此的单个蜘蛛。

所以我的问题是：

如何从db中加载url？
随着银行 网站更改 ，网站结构也发生变化，如何告诉scrapy根据银行网站或信用使用解析方法卡名？

我很抱歉，我无法巧妙地理解我的问题。

谢谢你的到来。

Answer 1

请注意，我在大型项目中一直在这样做

scraped_link = tldextract.extract(response.url)
if 'website' == scraped_link[1] and 'com' == scraped_link[2]:
    #do domething

if 'website2' == scraped_link[1] and 'net' == scraped_link[2]:
    #do domething

if 'website3' == scraped_link[1] and 'com' == scraped_link[2]:
    #do domething

在scrapy中使用一个蜘蛛爬网多个域并从db加载域

1 个答案: