编写脚本以下载服务器上的所有内容

时间:2014-10-01 10:06:22

标签: python bash http web-crawler

我想下载本网站上可公开访问的所有文件:

https://www.duo.uio.no/

这是奥斯陆大学的网站,在这里我们可以找到大学档案中公开提供的每篇论文/论文。我尝试过爬虫,但该网站设置了一些机制来阻止爬虫访问他们的文档。有没有其他方法可以做到这一点?

在原始问题中没有提到这一点,但我想要的是服务器上的所有pdf文件。我试过SiteSucker,但这似乎只是下载网站本身。

2 个答案:

答案 0 :(得分:2)

wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=unix,ascii --domains your-site.com --no-parent http://your-site.com

试试吧

答案 1 :(得分:0)

您可以尝试使用网站吸盘(download),它允许您下载网站的内容,忽略它们可能具有的任何规则。