Urllib2:获取html页面的内容

时间:2016-09-06 19:17:48

标签: python html urllib2

我需要解析一些网址的信息:

http://novosibirsk.baza.drom.ru/personal/actual/bulletins
http://drom.ru
http://novosibirsk.baza.drom.ru
http://moscow.drom.ru/volvo/xc70/21914186.html
http://novosibirsk.baza.drom.ru/personal/actual/bulletins
http://novosibirsk.baza.drom.ru/kolpaki-reno-r15-kubera-30227564.html

我尝试解析一些信息

if 'drom.ru' in url:
    req = urllib2.Request(url)
    response = urllib2.urlopen(req)
    page = response.read()
    soup = BeautifulSoup(page, 'html.parser')

但它返回给我空页。 哪里可能有问题?

2 个答案:

答案 0 :(得分:0)

第1步:您可以从浏览器访问网站吗? (如果没有,请转到第4步)

第2步:您可以从命令行访问网站,例如wget,curl等吗? (如果没有,请转到第4步)

第3步:检查代理问题/尝试使用其他库requests

步骤4:首先在浏览器/命令行中使用它,然后返回步骤1

答案 1 :(得分:-1)

使用requests会更容易。如果您没有安装requests模块,请尝试按pip install requests

安装
import requests

if 'drom.ru' in url:
    r = requests.get(url)
    soup = BeautifulSoup(r.content, 'html.parser') # lxml works faster than html.parser