是否有一种方法可以将列表传递给scrapy,以告诉它无法访问哪些域?
有点类似allowed_domains = ['google.com']
我正在尝试进行更广泛的爬网,但是却挂在了包含数千个不相关信息的大域中。
我的目标范围太广,无法列出“ allowed_domains”中的所有内容,我只想排除我选择的网站列表。
谢谢
答案 0 :(得分:0)
没有内置的方法可以做您想要的事情。
最简单的方法可能是用自定义的替换scrapy的OffsiteMiddleware。
只需覆盖should_follow()
方法就可以了。