任何人都可以告诉我,在抓取时是否有任何方法可以忽略或绕过robots.txt。有没有办法以忽略robots.txt并继续爬行的方式修改脚本?
或者还有其他方法可以达到同样的效果吗?
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow:
答案 0 :(得分:2)
如果您正在编写爬虫,那么您可以完全控制它。你可以使它表现得很好,或者你可以使它表现得很糟糕。
如果您不希望您的抓取工具尊重robots.txt,那么只需将其写入即可。您可能正在使用一个自动尊重robots.txt的库,如果是这样,那么您将不得不禁用它(这通常是您调用它时传递给库的选项)。
无法使用客户端JavaScript导致爬虫阅读嵌入JS的页面以停止尊重robots.txt。
答案 1 :(得分:2)
如果您正在用机械化(Python)编写Crawler并与robot.txt建立接口 然后使用以下命令:
import mechanize
br = mechanize.Browser()
br.set_handle_robots(False)