Question

我想下载本网站上可公开访问的所有文件：

https://www.duo.uio.no/

这是奥斯陆大学的网站，在这里我们可以找到大学档案中公开提供的每篇论文/论文。我尝试过爬虫，但该网站设置了一些机制来阻止爬虫访问他们的文档。有没有其他方法可以做到这一点？

在原始问题中没有提到这一点，但我想要的是服务器上的所有pdf文件。我试过SiteSucker，但这似乎只是下载网站本身。

Answer 1

wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=unix,ascii --domains your-site.com --no-parent http://your-site.com

试试吧

Answer 2

您可以尝试使用网站吸盘（download），它允许您下载网站的内容，忽略它们可能具有的任何规则。

编写脚本以下载服务器上的所有内容

2 个答案: