我希望能够使用Python下载页面及其所有相关资源(图像,样式表,脚本文件等)。我(有点)熟悉urllib2,知道如何下载个人网址,但在我开始攻击BeautifulSoup + urllib2之前,我想确保没有相当于“wget --page-requisites {的Python {3}}”。
具体而言,我有兴趣收集有关下载整个网页所需时间的统计信息,包括所有资源。
由于 标记
答案 0 :(得分:3)
Websucker?见http://effbot.org/zone/websucker.htm
答案 1 :(得分:2)
websucker.py不导入css链接。 HTTrack.com不是python,它是C / C ++,但它是一个很好的,维护的实用程序,用于下载网站进行离线浏览。
http://www.mail-archive.com/python-bugs-list@python.org/msg13523.html [issue1124] Webchecker没有解析css“@import url”
圭>这基本上是不受支持且未维护的示例代码。随意 提交补丁虽然!