保存html页面+更改所有链接以指向正确的位置

时间:2009-06-02 18:47:56

标签: javascript python html css screen-scraping

你可能知道IE有这个东西你可以保存一个网页,它会自动下载html文件和html文件使用的所有图像/ css / js文件。

现在有一个问题 - html文件中的链接没有改变。 所以如果我下载example.com的html页面,它有一个< a href = / hi.html>我用IE下载的页面将有一个指向C:\ Documents and Settings ...(html文件所在文件夹的路径)的链接。

是否有一个python库会为我下载一个html页面,包含它的所有内容(images / js / css)? 如果是,是否有一个库也会为我更改链接?

谢谢!

2 个答案:

答案 0 :(得分:8)

由于你特意提到IE,我不确定这对你有什么用处,但在linux上,完全镜像网站的最简单方法是使用wget命令。

wget --mirror --convert-links -w 1 http://www.example.com

如果您需要更多选项,请运行man wget。

答案 1 :(得分:0)

我已经编写了一个工具来将网页保存到一个独立的html文件中,并且链接指向的位置应该是相同的。

https://github.com/zTrix/webpage2html