在Python中下载网页及其所有资源文件

时间:2009-05-09 21:28:27

标签: python urllib2 wget

我希望能够使用Python下载页面及其所有相关资源(图像,样式表,脚本文件等)。我(有点)熟悉urllib2,知道如何下载个人网址,但在我开始攻击BeautifulSoup + urllib2之前,我想确保没有相当于“wget --page-requisites {的Python {3}}”。

具体而言,我有兴趣收集有关下载整个网页所需时间的统计信息,包括所有资源。

由于 标记

2 个答案:

答案 0 :(得分:3)

答案 1 :(得分:2)

websucker.py不导入css链接。 HTTrack.com不是python,它是C / C ++,但它是一个很好的,维护的实用程序,用于下载网站进行离线浏览。

http://www.mail-archive.com/python-bugs-list@python.org/msg13523.html [issue1124] Webchecker没有解析css“@import url”

圭>这基本上是不受支持且未维护的示例代码。随意 提交补丁虽然!