我有一个问题和一个问题。此网址 - www.listindiario.com - 具有重定向功能,我无法使用BeautifulSoup
网页抓取功能对其进行删除。它有一个重定向到根目录,我不知道如何在主页上进行webscraping,因为它总是重定向并且urllib2
失败。
我想访问主页而不是启动页面。有什么建议吗?
我知道代码没有优化,但我只是想知道如何跳过重定向。
key = 'la'
htmlfile_test = urllib2.Request('http://www.listindiario.com', headers=hdr)
try:
htmlfile = urllib2.urlopen(htmlfile_test)
soup = bs4(htmlfile)
print soup
except URLError as e:
if hasattr(e, 'reason'):
print 'Dificultad para encontrar respuesta del server.'
if responses.has_key(e.code):
print 'Razon: ', responses[e.code]
elif hasattr(e, 'code'):
print 'El servidor no puede completar la respuesta.'
print 'Codigo de error : ', e.code
else:
print 'URL: ', htmlfile.geturl()
for resultado in soup.find_all('a', href=True, text=re.compile(key)):
print "Encontrado ! <>", resultado['href']
答案 0 :(得分:1)
我建议使用requests
模块而不是urllib2
。然后您可以使用:
import requests
r = requests.get('http://www.listindiario.com', allow_redirects=False)
soup = bs4(r.text)