我有一个网站:http://planet.osm.ch/replication/hour/000/006/,我需要获取服务器上列出的最新文件。我如何通过python 2.6.x并仅使用标准库来实现这一目标。
谢谢
编辑:
当我的意思是最近的时候,我的意思是日期字段列出的最新文件。
答案 0 :(得分:2)
许多人更喜欢使用Beautiful Soup来完成这些任务。但由于您只想使用标准库,因此这是使用re和urllib2模块的快速解决方案。
import urllib2
import re
page = urllib2.urlopen(Your_site).read()
print re.findall(r"<a.+>(\d+.+)</a>",page)[-1]
注意:我知道使用re解析HTML是不好的做法,但这是一个简单的网站,问题也是如此。