Python Mechanize HTTP Error 403:robots.txt禁止请求

时间:2013-09-16 06:02:54

标签: python django beautifulsoup mechanize robots.txt

所以,我创建了一个Django网站,用于网页废料新闻网页上的文章.. 即使我使用机械化,我仍然告诉我:

HTTP Error 403: request disallowed by robots.txt 

我尝试了一切,看看我的代码(只是要废弃的部分):

br = mechanize.Browser()
page = br.open(web)
br.set_handle_robots(False)
br.set_handle_equiv(False)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
    #BeautifulSoup 
htmlcontent = page.read()
soup = BeautifulSoup(htmlcontent)

我也试过在set_hande_robots(Flase)等之前使用de br.open。它也没用。

有什么方法可以通过这些网站吗?

1 个答案:

答案 0 :(得分:4)

您在br.set_handle_robots(False)

之后设置了br.open()

应该是:

br = mechanize.Browser()
br.set_handle_robots(False)
br.set_handle_equiv(False)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
page = br.open(web)
htmlcontent = page.read()
soup = BeautifulSoup(htmlcontent)