我正在尝试从不属于我的网站更新天气数据,并将其中的一大块每30分钟放入一个通用文本文件中。文本文件不应包含任何html标记或任何内容,但可以用逗号或句点或制表符分隔。生成数据的网站将数据放在没有类或id的表中。我需要的是来自一个标签的文本及其中的每个标签。无论更新的数据如何,标签每次都在相同的行号上。
这似乎有点愚蠢,因为获取数据的方法看起来并不理想。我愿意接受不同方法的建议,以获得更新的(每小时两次 - 每日两次)温度/露点/时间/等数据点,并将其放入文本文件中。
关于每30分钟左右自动化一次,我有一个可以在任何时间间隔下载网页的自动化程序。
我希望我对这个相当奇怪(至少对我来说)的挑战有足够的了解。我甚至不确定从哪里开始。我有很多关于html和Python,javascript,PHP和SQL基础知识的经验,但我愿意接受代码或学习其他语言的语法。
答案 0 :(得分:0)
也许你可以在cronjob中使用它:
$file = file_get_contents ($url);
$onlyText = strip_tags ($file);
$fp = fopen('data.txt', 'w');
fwrite($fp, $onlyText);
fclose($fp);
答案 1 :(得分:0)
对于Python
对于N分钟的定时任务,创建一个UNIX cron作业或Windows等效项,定期运行.py脚本
使用.py脚本中的urllib2模块下载天气数据
使用BeautifulSoup或lxml库解析HTML
使用XPath选择器或CSS选择器(lxml)选择HTML的相关位
处理数据并将其写入文本文件
实际的实现留给了读者:)
答案 2 :(得分:0)
这称为screen-scraping,但这常常令人不悦,如果您只是想要天气数据several APIs,可能会根据您的具体需求提供更好的解决方案。
除此之外,我们需要更多细节,例如页面代码,以帮助您解决这个问题。