我希望能够运行一个脚本(或其他东西)来“下载”某个网页(html)及其所有附件(word docs),以便我可以保留并操作私人收藏。
这是故事...... 这个网站我经常用于研究。在这个网站上有许多html页面,其中包含文本和下载文档的链接(.pdf和.docs)。所有者(我们的政府)将要对信息进行“私有化”存在威胁,我认为这是虚假的。然而,存在这种威胁。我希望能够提取所有html文本和所有附件的副本,以便我可以托管我自己的(在我的桌面上)个人版本的数据(以防万一)。有一种简单的方法可以做到这一点吗?
注意:我没有对此网络服务器的FTP访问权限,只能访问各个网页和附件。
答案 0 :(得分:1)
有很多程序可以做到这一点。在Google上搜索“offline browser”会产生大量结果。虽然我不太热衷于重新发明轮子,但对于自构建的解决方案,我可能会使用PHP的cURL库,但话又取决于你熟悉的编程语言
希望这有帮助。
答案 1 :(得分:1)
我为此目的使用wget。
wget --mirror --no-parent http://remotesite.gov/documents/
镜像站点的一部分时的密钥是确保不要在你感兴趣的目录之外提升。这就是--no-parent标志的作用。