将网页和外部链接的资源保存为独立的静态资源

时间:2010-10-22 13:20:37

标签: javascript html css caching webpage

我们要求尽可能准确地缓存网页,以便我们可以返回并查看以前任何时间点的网页版本。我们希望能够以正确的css,javascript,图像等方式查看页面。

是否有任何操作系统库(任何语言)可以获取页面,下载所有外部链接的资产并重新编写链接,以便它们指向本地缓存的资产?

或者这是一个滚动我们自己的案例?

由于

编辑:我意识到如果不渲染动态生成的链接等,除非我们进行DOM渲染,否则这不可能100%实现。但是暂时我们可能没有这个。

3 个答案:

答案 0 :(得分:9)

我建议HTTrack: http://www.httrack.com/

由于该软件是免费的,开源的,并且支持可视化界面和命令行,我相信您可以将其集成或根据您的需求进行定制。

参见说明

“HTTrack允许您从互联网下载万维网站点到本地目录,递归构建所有目录,从服务器获取HTML,图像和其他文件到您的计算机。

它安排原始网站的相对链接结构。只需在浏览器中打开“镜像”网站的页面,即可在链接中浏览网站,就像在线查看一样。

它还可以更新现有的镜像站点,并恢复中断的下载。“

在什么操作系统中可以运行

适用于Linux / Unix / BSD的

WebHTTrack :Debian,Ubuntu,Gentoo,RPM软件包(Mandriva& RedHat),OSX(MacPorts),Fedora和FreeBSD i386软件包。

适用于Windows 2000 / XP / Vista / Seven的

WinHTTrack

-

更新:项目处于有效状态,最新版本已在 04/01/2017提交

答案 1 :(得分:1)

为什么不对页面应用基本href,用相对绝对值替换内部绝对链接并保留结构?

答案 2 :(得分:0)

您可以使用mht / mhtml格式保存为统一文档。

Wiki描述:http://en.wikipedia.org/wiki/MHTML

快速搜索会显示一些代码来源。