如何使用lxml从网站获取消息?

时间:2009-10-30 07:47:17

标签: django lxml

在exam.com上不是关于天气:

Tokyo: 25°C

我想使用 Django 1.1 lxml 来获取网站上的信息。我想获得仅为“25”的信息。

HTML exam.com结构如下:

<p id="resultWeather">
    <b>Weather</b>
    Tokyo:
    <b>25</b>°C
</p>

我是学生。我和朋友们正在做一个小项目。请向我解释,轻松理解。非常感谢你!

1 个答案:

答案 0 :(得分:4)

BeautifulSoup比lxml更适合html解析。

这样的事情会有所帮助:

def get_weather():
    import urllib
    from BeautifulSoup import BeautifulSoup
    data = urllib.urlopen('http://exam.com/').read()
    soup = BeautifulSoup(data)
    return soup.find('p', {'id': 'resultWeather'}).findAll('b')[-1].string

使用urllib获取页面内容,使用BeautifulSoup解析它,找到带有id = resultWeather的P,找到P中的最后一个B并获取它的内容

相关问题