你可能知道IE有这个东西你可以保存一个网页,它会自动下载html文件和html文件使用的所有图像/ css / js文件。
现在有一个问题 - html文件中的链接没有改变。 所以如果我下载example.com的html页面,它有一个< a href = / hi.html>我用IE下载的页面将有一个指向C:\ Documents and Settings ...(html文件所在文件夹的路径)的链接。
是否有一个python库会为我下载一个html页面,包含它的所有内容(images / js / css)? 如果是,是否有一个库也会为我更改链接?
谢谢!
答案 0 :(得分:8)
由于你特意提到IE,我不确定这对你有什么用处,但在linux上,完全镜像网站的最简单方法是使用wget命令。
wget --mirror --convert-links -w 1 http://www.example.com
如果您需要更多选项,请运行man wget。
答案 1 :(得分:0)
我已经编写了一个工具来将网页保存到一个独立的html文件中,并且链接指向的位置应该是相同的。