我想下载本网站上可公开访问的所有文件:
https://www.duo.uio.no/
这是奥斯陆大学的网站,在这里我们可以找到大学档案中公开提供的每篇论文/论文。我尝试过爬虫,但该网站设置了一些机制来阻止爬虫访问他们的文档。有没有其他方法可以做到这一点?
在原始问题中没有提到这一点,但我想要的是服务器上的所有pdf文件。我试过SiteSucker,但这似乎只是下载网站本身。
答案 0 :(得分:2)
wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=unix,ascii --domains your-site.com --no-parent http://your-site.com
试试吧
答案 1 :(得分:0)
您可以尝试使用网站吸盘(download),它允许您下载网站的内容,忽略它们可能具有的任何规则。