scrapy允许所有域名

时间:2012-03-03 03:55:23

标签: python scrapy

我看到了this帖子,要求scrapy抓取任何网站,不允许域限制。

有没有更好的方法,例如在允许的域变量中使用正则表达式,如 -

allowed_domains = ["*"]

我希望除了攻击scrapy框架之外还有其他方法可以做到这一点。

2 个答案:

答案 0 :(得分:14)

根本不要设置allowed_domains。

查看此scrapy文件中的get_host_regex()函数:

https://github.com/scrapy/scrapy/blob/master/scrapy/contrib/spidermiddleware/offsite.py

答案 1 :(得分:1)

你应该停用异地middlware,它是scrapy中内置的蜘蛛中间件。 了解更多信息http://doc.scrapy.org/en/latest/topics/spider-middleware.html