wget递归下载缺少的子目录文件

时间:2018-09-27 20:42:27

标签: bash curl cookies download wget

我在Linux上使用wget批量下载https://n5eil01u.ecs.nsidc.org/ICEBRIDGE/RDEFT4.001/数据集时遇到麻烦。该地址目录包含许多子目录,每个子目录如下:

enter image description here

我已正确设置〜。/ netrc文件(https://nsidc.org/support/how/how-do-i-use-wget-bulk-downloading-data-set),并已下载完其他数据集。请注意,您需要注册NSIDC(免费)以获得用户名/密码。

当我尝试以下命令时,它将跳过我尝试获取的所有.nc文件,仅返回子文件夹的index.html文件。

wget --load-cookies ~/.urs_cookies --save-cookies ~/.urs_cookies --keep-session-cookies --no-check-certificate --auth-no-challenge=on -r -np -e robots=off https://n5eil01u.ecs.nsidc.org/ICEBRIDGE/RDEFT4.001/

但是,如果我仅更改路径以拥有第一个子文件夹2010.08.27,它将成功捕获该ONE子文件夹中的所有文件。

wget --load-cookies ~/.urs_cookies --save-cookies ~/.urs_cookies --keep-session-cookies --no-check-certificate --auth-no-challenge=on -r -np -e robots=off https://n5eil01u.ecs.nsidc.org/ICEBRIDGE/RDEFT4.001/2010.08.27

关于为什么会发生这种情况的任何建议? (仅供参考:我通过电子邮件向NSIDC网站管理员发送了电子邮件,但尚未回复,因此我想在这里试试运气)。谢谢!

0 个答案:

没有答案