在http服务器(python)上查找最新文件

时间:2014-01-22 18:03:23

标签: python file http

我有一个网站:http://planet.osm.ch/replication/hour/000/006/,我需要获取服务器上列出的最新文件。我如何通过python 2.6.x并仅使用标准库来实现这一目标。

谢谢

编辑:

当我的意思是最近的时候,我的意思是日期字段列出的最新文件。

1 个答案:

答案 0 :(得分:2)

许多人更喜欢使用Beautiful Soup来完成这些任务。但由于您只想使用标准库,因此这是使用re和urllib2模块的快速解决方案。

import urllib2
import re
page = urllib2.urlopen(Your_site).read()
print re.findall(r"<a.+>(\d+.+)</a>",page)[-1]

注意:我知道使用re解析HTML是不好的做法,但这是一个简单的网站,问题也是如此。