以编程方式获取在网页上发布的文件

时间:2013-08-20 06:57:15

标签: python objective-c download web-scraping

我想以编程方式从一个网站获取已发布的zip文件列表,将其解压缩并在我的桌面文件夹中获取包含某种文本文件的文件夹。

这是XDXF格式的词典列表,在此发布http://dicto.org.ru/xdxf.html并最终从SourceForge下载。

我是网络技术的初学者,但擅长Objective-C。我寻求任何建议,我应该使用哪种方法,我可以阅读哪些语言和哪些文章。我不会滥用那些网站,我只是想自动下载大约100个文件并解压缩它们。我不想手动这样做。我听说使用Python可以完成某项任务。

据我所知,我可以从该页面获得自动下载的链接列表。获得它们的最佳方法是什么?使用正则表达式?

1 个答案:

答案 0 :(得分:0)

您可以使用Mechanize等模块来检索和废弃网页以及文件。要解压缩,您可以使用标准模块zipfile