Question

我需要解析一些网址的信息：

http://novosibirsk.baza.drom.ru/personal/actual/bulletins
http://drom.ru
http://novosibirsk.baza.drom.ru
http://moscow.drom.ru/volvo/xc70/21914186.html
http://novosibirsk.baza.drom.ru/personal/actual/bulletins
http://novosibirsk.baza.drom.ru/kolpaki-reno-r15-kubera-30227564.html

我尝试解析一些信息

if 'drom.ru' in url:
    req = urllib2.Request(url)
    response = urllib2.urlopen(req)
    page = response.read()
    soup = BeautifulSoup(page, 'html.parser')

但它返回给我空页。哪里可能有问题？

Answer 1

第1步：您可以从浏览器访问网站吗？（如果没有，请转到第4步）

第2步：您可以从命令行访问网站，例如wget，curl等吗？（如果没有，请转到第4步）

第3步：检查代理问题/尝试使用其他库requests

步骤4：首先在浏览器/命令行中使用它，然后返回步骤1

Answer 2

使用requests会更容易。如果您没有安装requests模块，请尝试按pip install requests

安装

import requests

if 'drom.ru' in url:
    r = requests.get(url)
    soup = BeautifulSoup(r.content, 'html.parser') # lxml works faster than html.parser

Urllib2：获取html页面的内容

2 个答案: