如何下载包含所有依赖项的HTML页面?

时间:2012-05-17 18:44:18

标签: php javascript web download copy

我正在开发这个项目,我基本上需要能够在任何页面上放置一个html按钮(可以登录保护),一旦用户点击该按钮,页面html和依赖项(css,js,图像等)应该发送到远程服务器。

最初我通过使用iframe和隐藏表单并在用户单击按钮时将页面的URL发布到远程服务器来使其工作。然后我在exec中使用wget来获取页面和依赖项。但是,这显然不适用于受保护的页面。

所以我的下一个方法是通过表单将页面的innerHTML发送到远程服务器上的php脚本。然后我尝试使用simplehtmldom来运行和标记,将相对URL转换为绝对URL,将它们存储在数组中,并将url替换为同一目录中的路径。然后我在所有数组上应用了wget并下载了这些依赖项。

然而,我再次陷入困境,因为CSS中存在背景图像,javascript中嵌入了html代码。

有人可以建议更好的解决方案吗?

由于

1 个答案:

答案 0 :(得分:0)

我不确定这是否会奏效。 事实是,除非您的网站确实非常简单(即动态部分非常少)并且存在于click-> load->静态范例中,这种范式实际上不再是现代网站的工作方式,您总是会有一些缺失的部分/依赖。

如果它是一个超级简单的网站,您可以发送html,然后将<base> href添加到副本的头部?

如您所知,现在这些网站更像是应用程序,您真的需要整个网站包含所有“活动部分”

其他可能值得关注的事情:

  1. 使用PHP / .NET / Java / Ruby等的ftp函数来触发 template / css / img目录到新位置。
  2. 或许可以查看HTML 2 PDF / Canvas工具,它们可以显示出来 视觉表示网站的当前状态到另一个 位置。