Question

我有一个网站：http://planet.osm.ch/replication/hour/000/006/，我需要获取服务器上列出的最新文件。我如何通过python 2.6.x并仅使用标准库来实现这一目标。

谢谢

编辑：

当我的意思是最近的时候，我的意思是日期字段列出的最新文件。

Answer 1

许多人更喜欢使用Beautiful Soup来完成这些任务。但由于您只想使用标准库，因此这是使用re和urllib2模块的快速解决方案。

import urllib2
import re
page = urllib2.urlopen(Your_site).read()
print re.findall(r"<a.+>(\d+.+)</a>",page)[-1]

注意：我知道使用re解析HTML是不好的做法，但这是一个简单的网站，问题也是如此。