我收到了这个错误,这是几天开始刮擦的第一种错误:
mechanize._response.httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt
但是,该网站的robots.txt上写着:
User-agent: *
Disallow:
根据this source,如果该网站因此类访问权限而关闭,则robots.txt将包含Disallow: /
。
错误是否仍然意味着我应该停止抓取,或者还有其他问题?
我是否应该尝试安抚服务器(比如减少请求的频率),或者只是通过添加标头等来避免错误。
最后,考虑到403,继续刮擦是不道德的吗?
答案 0 :(得分:1)
你可以ignore the robots.txt看看会发生什么(可能不符合道德规范,即使是出于测试目的)。如果您仍然获得403,他们可能会专门阻止您的IP,而不是添加到robots.txt文件。
您可以联系该网站的所有者,看看是否可以获得他们的权限,以便在您感觉合法固定时覆盖robots.txt。
或者,就像你说的那样,忽略robots.txt。我不能评论道德上的后果,因为我不熟悉那个领域。