我看到了this帖子,要求scrapy抓取任何网站,不允许域限制。
有没有更好的方法,例如在允许的域变量中使用正则表达式,如 -
allowed_domains = ["*"]
我希望除了攻击scrapy框架之外还有其他方法可以做到这一点。
答案 0 :(得分:14)
根本不要设置allowed_domains。
查看此scrapy文件中的get_host_regex()函数:
https://github.com/scrapy/scrapy/blob/master/scrapy/contrib/spidermiddleware/offsite.py
答案 1 :(得分:1)
你应该停用异地middlware,它是scrapy中内置的蜘蛛中间件。 了解更多信息http://doc.scrapy.org/en/latest/topics/spider-middleware.html