在exam.com上不是关于天气:
Tokyo: 25°C
我想使用 Django 1.1 和 lxml 来获取网站上的信息。我想获得仅为“25”的信息。
HTML exam.com结构如下:
<p id="resultWeather">
<b>Weather</b>
Tokyo:
<b>25</b>°C
</p>
我是学生。我和朋友们正在做一个小项目。请向我解释,轻松理解。非常感谢你!
答案 0 :(得分:4)
BeautifulSoup比lxml更适合html解析。
这样的事情会有所帮助:
def get_weather():
import urllib
from BeautifulSoup import BeautifulSoup
data = urllib.urlopen('http://exam.com/').read()
soup = BeautifulSoup(data)
return soup.find('p', {'id': 'resultWeather'}).findAll('b')[-1].string
使用urllib获取页面内容,使用BeautifulSoup解析它,找到带有id = resultWeather的P,找到P中的最后一个B并获取它的内容