Question

我将使用wget从服务器下载相当大量的数据（~50-100 GB，几千个文件）。这将是相当时间关键的，所以我想问几个关于性能的问题。

1）运行wget时，似乎有一个非常长的初始阶段，没有下载发生，然后突然启动。这个阶段似乎比实际下载明显更长。在wget过程开始时会发生什么，有没有办法加速它？

在此阶段，没有网络活动，而top上的wget似乎不是非常活跃。它可能与wget的-erobots=off选项有关吗？

2）我要下载的文件结构如下：

.../main_dir/
    000001/
        file1
        file2
        ...
    000002/
        ...
    ...

main_dir总共包含约50-100GB。但是，如果我尝试使用如下命令递归下载main_dir：

wget -q -nH --cut-dirs=6 -r --level=7 -l0 -c -N -np -R 'index*' -erobots=off https:.../main_dir/

它不起作用（它只是挂在那里）。这是因为单个wget命令获取的文件大小限制了吗？因为如果main_dir包含大约~10GB，则相同的命令有效。

此外，当尝试从服务器下载100GB时，是否会有替代品或任何特殊技巧？

Answer 1

如果有人仍然在寻找答案，那么这就是我从那以后所学到的。开头确实有一个缓慢的索引步骤，可以通过使用lftp并镜像站点来避免：

lftp -e "mirror path/to/dir/; quit" site.url

速度更快，并且还支持多个流下载（请参阅文档），最终将下载时间从大约12-24小时减少到大约1小时，非常大的传输。