Question

任何人都可以告诉我，在抓取时是否有任何方法可以忽略或绕过robots.txt。有没有办法以忽略robots.txt并继续爬行的方式修改脚本？

或者还有其他方法可以达到同样的效果吗？

User-agent: *
Disallow: /

User-agent: Googlebot
Disallow:

Answer 1

如果您正在编写爬虫，那么您可以完全控制它。你可以使它表现得很好，或者你可以使它表现得很糟糕。

如果您不希望您的抓取工具尊重robots.txt，那么只需将其写入即可。您可能正在使用一个自动尊重robots.txt的库，如果是这样，那么您将不得不禁用它（这通常是您调用它时传递给库的选项）。

无法使用客户端JavaScript导致爬虫阅读嵌入JS的页面以停止尊重robots.txt。

Answer 2

如果您正在用机械化（Python）编写Crawler并与robot.txt建立接口然后使用以下命令：

import mechanize
br = mechanize.Browser()
br.set_handle_robots(False)