Question

我要做的是以下内容。有这个网页：http://xml.buienradar.nl。

从那以后，我想每n分钟提取一个值，最好是用Python。让我们来说Gilze-Rijen站的风速。它位于此页面上：

<buienradarnl>.<weergegevens>.<actueel_weer>.<weerstations>.<weerstation id="6350">.<windsnelheidMS>4.80</windsnelheidMS>

现在，我可以找到许多问题，其中包含使用Python读取本地XML文件的答案。但是，我宁愿每隔几分钟不需要wget或curl此页面。

显然，我对此并不十分熟悉。

必须这是一种非常简单的方法。答案要么逃避，要么淹没在解决本地文件问题的所有答案中。

Answer 1

我会使用urllib2和BeautifulSoup。

from urllib2 import Request, urlopen
from bs4 import BeautifulSoup

req = Request("http://xml.buienradar.nl/")
response = urlopen(req)
output = response.read()
soup = BeautifulSoup(output)

print soup.prettify()

然后你可以像你建议的那样遍历输出：

soup.buienradarnl.weergegevens (etc)

如何从XML格式的网页中读取值

1 个答案: