Question

我希望能够运行一个脚本（或其他东西）来“下载”某个网页（html）及其所有附件（word docs），以便我可以保留并操作私人收藏。

这是故事...... 这个网站我经常用于研究。在这个网站上有许多html页面，其中包含文本和下载文档的链接（.pdf和.docs）。所有者（我们的政府）将要对信息进行“私有化”存在威胁，我认为这是虚假的。然而，存在这种威胁。我希望能够提取所有html文本和所有附件的副本，以便我可以托管我自己的（在我的桌面上）个人版本的数据（以防万一）。有一种简单的方法可以做到这一点吗？

注意：我没有对此网络服务器的FTP访问权限，只能访问各个网页和附件。

Answer 1

有很多程序可以做到这一点。在Google上搜索“offline browser”会产生大量结果。虽然我不太热衷于重新发明轮子，但对于自构建的解决方案，我可能会使用PHP的cURL库，但话又取决于你熟悉的编程语言

希望这有帮助。

Answer 2

我为此目的使用wget。

wget --mirror --no-parent http://remotesite.gov/documents/

镜像站点的一部分时的密钥是确保不要在你感兴趣的目录之外提升。这就是--no-parent标志的作用。

从网站上提取html和所有下载附件的方法

2 个答案: