我要做的是以下内容。有这个网页:http://xml.buienradar.nl。
从那以后,我想每n分钟提取一个值,最好是用Python。让我们来说Gilze-Rijen站的风速。它位于此页面上:
<buienradarnl>.<weergegevens>.<actueel_weer>.<weerstations>.<weerstation id="6350">.<windsnelheidMS>4.80</windsnelheidMS>
现在,我可以找到许多问题,其中包含使用Python读取本地XML文件的答案。但是,我宁愿每隔几分钟不需要wget
或curl
此页面。
显然,我对此并不十分熟悉。
必须 这是一种非常简单的方法。答案要么逃避,要么淹没在解决本地文件问题的所有答案中。
答案 0 :(得分:2)
我会使用urllib2和BeautifulSoup。
from urllib2 import Request, urlopen
from bs4 import BeautifulSoup
req = Request("http://xml.buienradar.nl/")
response = urlopen(req)
output = response.read()
soup = BeautifulSoup(output)
print soup.prettify()
然后你可以像你建议的那样遍历输出:
soup.buienradarnl.weergegevens (etc)