有没有一种方法可以禁止网域中的scrapy?

时间:2018-12-02 03:50:39

标签: python scrapy scrapy-spider

是否有一种方法可以将列表传递给scrapy,以告诉它无法访问哪些域?

有点类似allowed_domains = ['google.com']

我正在尝试进行更广泛的爬网,但是却挂在了包含数千个不相关信息的大域中。

我的目标范围太广,无法列出“ allowed_domains”中的所有内容,我只想排除我选择的网站列表。

谢谢

1 个答案:

答案 0 :(得分:0)

没有内置的方法可以做您想要的事情。

最简单的方法可能是用自定义的替换scrapy的OffsiteMiddleware
只需覆盖should_follow()方法就可以了。