如何避免机器人检测?

时间:2012-04-19 20:51:45

标签: python web-scraping mechanize robots.txt

我正在使用python + mechanize,试图抓一个网站。如果我使用链接访问此站点,则会显示登录页面的纯文本版本。这是我想用刮刀看到的。所以:

import mechanize

USER_AGENT = "Links (2.3pre1; Linux 2.6.32-5-xen-amd64 x86_64; 80x24)"
mech = mechanize.Browser(factory=mechanize.RobustFactory())
mech.addheaders = [('User-agent', USER_AGENT)]
mech.set_handle_robots(False)

resp = mech.open(URLS['start'])
fnout("001-login.html", resp.read())
resp.close()

fnout只是将字符串转储到文件中。然而,当我打开001-login.html时,整个页面就是“机器人”这个词。没别了。

我没有提出任何其他要求。这不像我加载页面&没有加载图像,或其他什么。这是我提出的第一个请求,我将User-Agent与网站使用的链接版本完全相同。我做错了什么(除了试图刮掉一个不想刮掉的网站之外)?

1 个答案:

答案 0 :(得分:7)

可能还有links正在发送的其他标题,而​​Mechanize没有,反之亦然。使用links和Mechanize同时点击http://www.reliply.org/tools/requestheaders.php并查看正在发送的标题。