无法得到' wget --recursive'上班

时间:2015-07-26 07:46:48

标签: https wget

我想下载此页面:

https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset

及其子页面,尤其是.pdf文档:

https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset/MS-A0210_thursday_30_oct.pdf
https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset/MS-A0210_hints_for_w45.pdf
etc.

当我发出这个命令时:

$ wget --page-requisites --convert-links --recursive --level=0 --no-check-certificate --no-proxy -E -H -Dnoppa.aalto.fi -k https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset

我明白了:

$ ls -R
.:
noppa.aalto.fi

./noppa.aalto.fi:
noppa  robots.txt

./noppa.aalto.fi/noppa:
kurssi

./noppa.aalto.fi/noppa/kurssi:
ms-a0210

./noppa.aalto.fi/noppa/kurssi/ms-a0210:
viikkoharjoitukset.html

我已经尝试了几种wget选项,没有运气。

可能是什么问题?

1 个答案:

答案 0 :(得分:1)

默认情况下,wget符合robots.txt个文件,在这种情况下,不允许所有访问:

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /
Disallow: /cgi-bin/

如果您在命令行中添加-e robots=offwget将不关心robots.txt文件。