Question

我收到了这个错误，这是几天开始刮擦的第一种错误：

mechanize._response.httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt

但是，该网站的robots.txt上写着：

User-agent: *
Disallow:

根据this source，如果该网站因此类访问权限而关闭，则robots.txt将包含Disallow: /。

错误是否仍然意味着我应该停止抓取，或者还有其他问题？

我是否应该尝试安抚服务器（比如减少请求的频率），或者只是通过添加标头等来避免错误。

最后，考虑到403，继续刮擦是不道德的吗？

Answer 1

你可以ignore the robots.txt看看会发生什么（可能不符合道德规范，即使是出于测试目的）。如果您仍然获得403，他们可能会专门阻止您的IP，而不是添加到robots.txt文件。

您可以联系该网站的所有者，看看是否可以获得他们的权限，以便在您感觉合法固定时覆盖robots.txt。

或者，就像你说的那样，忽略robots.txt。我不能评论道德上的后果，因为我不熟悉那个领域。