应用错误收集

如何抓住robots.txt禁止？

时间：2017-05-25 18:47:23

标签： python scrapy

如何在scrapy中捕获robots.txt禁止的请求？通常这似乎会被自动忽略，即输出中没有任何内容，所以我真的不能告诉那些网址会发生什么。理想情况下，如果抓取一个网址导致robots.txt错误禁止此操作，我想输出{'url': url, 'status': 'forbidden by robots.txt'}之类的记录。我怎样才能做到这一点？

新的scrapy。感谢任何帮助。

1 个答案:

答案 0 :(得分：2)

转到项目文件夹中的settings.py，然后将ROBOTSTXT_OBEY = True更改为ROBOTSTXT_OBEY = False。

如何配置robots.txt以允许一切？
如何在JS中捕获403禁止错误？
避免搜索引擎将一个域编入索引
Google网站管理员中的robots.txt消息阻止了网址
如何理解robot.txt文件代码
403 Forbidden，Index of / catch 22
如何抓住robots.txt禁止？
＆＃34; /recaptcha/api2/logo_48.png"被Google阻止
如何解决“ Binson网站上的Google搜索请求失败。禁止使用403”
如何排除robots.txt来索引/抓取所有html页面

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？