由于robots.txt,Mechanize会收到403错误,但robots.txt不会阻止任何内容

时间:2017-02-21 21:12:59

标签: python screen-scraping mechanize http-status-code-403 robots.txt

我收到了这个错误,这是几天开始刮擦的第一种错误:

mechanize._response.httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt

但是,该网站的robots.txt上写着:

User-agent: *
Disallow:

根据this source,如果该网站因此类访问权限而关闭,则robots.txt将包含Disallow: /

错误是否仍然意味着我应该停止抓取,或者还有其他问题?

我是否应该尝试安抚服务器(比如减少请求的频率),或者只是通过添加标头等来避免错误。

最后,考虑到403,继续刮擦是不道德的吗?

1 个答案:

答案 0 :(得分:1)

你可以ignore the robots.txt看看会发生什么(可能不符合道德规范,即使是出于测试目的)。如果您仍然获得403,他们可能会专门阻止您的IP,而不是添加到robots.txt文件。

您可以联系该网站的所有者,看看是否可以获得他们的权限,以便在您感觉合法固定时覆盖robots.txt。

或者,就像你说的那样,忽略robots.txt。我不能评论道德上的后果,因为我不熟悉那个领域。