我们要求尽可能准确地缓存网页,以便我们可以返回并查看以前任何时间点的网页版本。我们希望能够以正确的css,javascript,图像等方式查看页面。
是否有任何操作系统库(任何语言)可以获取页面,下载所有外部链接的资产并重新编写链接,以便它们指向本地缓存的资产?
或者这是一个滚动我们自己的案例?
由于
编辑:我意识到如果不渲染动态生成的链接等,除非我们进行DOM渲染,否则这不可能100%实现。但是暂时我们可能没有这个。
答案 0 :(得分:9)
我建议HTTrack: http://www.httrack.com/
由于该软件是免费的,开源的,并且支持可视化界面和命令行,我相信您可以将其集成或根据您的需求进行定制。
参见说明:
“HTTrack允许您从互联网下载万维网站点到本地目录,递归构建所有目录,从服务器获取HTML,图像和其他文件到您的计算机。
它安排原始网站的相对链接结构。只需在浏览器中打开“镜像”网站的页面,即可在链接中浏览网站,就像在线查看一样。
它还可以更新现有的镜像站点,并恢复中断的下载。“
在什么操作系统中可以运行:
适用于Linux / Unix / BSD的WebHTTrack :Debian,Ubuntu,Gentoo,RPM软件包(Mandriva& RedHat),OSX(MacPorts),Fedora和FreeBSD i386软件包。
适用于Windows 2000 / XP / Vista / Seven的WinHTTrack
-
更新:项目处于有效状态,最新版本已在 04/01/2017提交
答案 1 :(得分:1)
为什么不对页面应用基本href,用相对绝对值替换内部绝对链接并保留结构?
答案 2 :(得分:0)