如何在抓取时绕过robots.txt

时间:2015-01-21 15:00:59

标签: javascript jquery

任何人都可以告诉我,在抓取时是否有任何方法可以忽略或绕过robots.txt。有没有办法以忽略robots.txt并继续爬行的方式修改脚本?

或者还有其他方法可以达到同样的效果吗?

User-agent: *
Disallow: /

User-agent: Googlebot
Disallow:

2 个答案:

答案 0 :(得分:2)

如果您正在编写爬虫,那么您可以完全控制它。你可以使它表现得很好,或者你可以使它表现得很糟糕。

如果您不希望您的抓取工具尊重robots.txt,那么只需将其写入即可。您可能正在使用一个自动尊重robots.txt的库,如果是这样,那么您将不得不禁用它(这通常是您调用它时传递给库的选项)。


无法使用客户端JavaScript导致爬虫阅读嵌入JS的页面以停止尊重robots.txt。

答案 1 :(得分:2)

如果您正在用机械化(Python)编写Crawler并与robot.txt建立接口 然后使用以下命令:

import mechanize
br = mechanize.Browser()
br.set_handle_robots(False)