我需要解析一些网址的信息:
http://novosibirsk.baza.drom.ru/personal/actual/bulletins
http://drom.ru
http://novosibirsk.baza.drom.ru
http://moscow.drom.ru/volvo/xc70/21914186.html
http://novosibirsk.baza.drom.ru/personal/actual/bulletins
http://novosibirsk.baza.drom.ru/kolpaki-reno-r15-kubera-30227564.html
我尝试解析一些信息
if 'drom.ru' in url:
req = urllib2.Request(url)
response = urllib2.urlopen(req)
page = response.read()
soup = BeautifulSoup(page, 'html.parser')
但它返回给我空页。 哪里可能有问题?
答案 0 :(得分:0)
第1步:您可以从浏览器访问网站吗? (如果没有,请转到第4步)
第2步:您可以从命令行访问网站,例如wget,curl等吗? (如果没有,请转到第4步)
第3步:检查代理问题/尝试使用其他库requests
步骤4:首先在浏览器/命令行中使用它,然后返回步骤1
答案 1 :(得分:-1)
使用requests
会更容易。如果您没有安装requests
模块,请尝试按pip install requests
import requests
if 'drom.ru' in url:
r = requests.get(url)
soup = BeautifulSoup(r.content, 'html.parser') # lxml works faster than html.parser