使用BeautifulSoup和url重定向错误进行Web Scraping?

时间:2014-11-27 18:46:09

标签: python beautifulsoup url-redirection

我有一个问题和一个问题。此网址 - www.listindiario.com - 具有重定向功能,我无法使用BeautifulSoup网页抓取功能对其进行删除。它有一个重定向到根目录,我不知道如何在主页上进行webscraping,因为它总是重定向并且urllib2失败。

我想访问主页而不是启动页面。有什么建议吗?

我知道代码没有优化,但我只是想知道如何跳过重定向。

key = 'la'

htmlfile_test = urllib2.Request('http://www.listindiario.com', headers=hdr)

try:
    htmlfile = urllib2.urlopen(htmlfile_test)
    soup = bs4(htmlfile)

    print soup

except URLError as e:
    if hasattr(e, 'reason'):
        print 'Dificultad para encontrar respuesta del server.'

    if responses.has_key(e.code):
        print 'Razon: ', responses[e.code]
    elif hasattr(e, 'code'):
        print 'El servidor no puede completar la respuesta.'
        print 'Codigo de error : ', e.code

    else:
        print 'URL: ', htmlfile.geturl()

        for resultado in soup.find_all('a', href=True, text=re.compile(key)):
            print "Encontrado ! <>", resultado['href']

1 个答案:

答案 0 :(得分:1)

我建议使用requests模块而不是urllib2。然后您可以使用:

import requests
r = requests.get('http://www.listindiario.com', allow_redirects=False)
soup = bs4(r.text)