在抓取https://www.netflix.com等网站时,被robots.txt禁止访问:https://www.netflix.com/>
错误:未下载任何回复:https://www.netflix.com/
答案 0 :(得分:99)
在2016-05-11推出的新版本(scrapy 1.1)中,抓取首先在抓取之前下载robots.txt。要使用ROBOTSTXT_OBEY
更改settings.py
中的此行为更改
ROBOTSTXT_OBEY=False
答案 1 :(得分:1)
您需要确保的第一件事是您在请求中更改用户代理,否则将默认阻止默认用户代理。
答案 2 :(得分:1)
Netflix的使用条款状态:
您还同意不回避,删除,更改,停用,降级或破坏Netflix服务中的任何内容保护;使用任何机器人,蜘蛛,刮板或其他自动化方式访问Netflix服务;
他们设置了robots.txt来阻止网页抓取工具。如果您将settings.py
中的设置覆盖为ROBOTSTXT_OBEY=False
,那么您违反了它们的使用条款,可能会导致诉讼。