wget大型下载的性能,为什么它开始下载需要很长时间?

时间:2017-02-26 14:57:50

标签: ftp wget file-transfer

我将使用wget从服务器下载相当大量的数据(~50-100 GB,几千个文件)。这将是相当时间关键的,所以我想问几个关于性能的问题。

1)运行wget时,似乎有一个非常长的初始阶段,没有下载发生,然后突然启动。这个阶段似乎比实际下载明显更长。在wget过程开始时会发生什么,有没有办法加速它?

在此阶段,没有网络活动,而top上的wget似乎不是非常活跃。它可能与wget的-erobots=off选项有关吗?

2)我要下载的文件结构如下:

.../main_dir/
    000001/
        file1
        file2
        ...
    000002/
        ...
    ...

main_dir总共包含约50-100GB。但是,如果我尝试使用如下命令递归下载main_dir

wget -q -nH --cut-dirs=6 -r --level=7 -l0 -c -N -np -R 'index*' -erobots=off https:.../main_dir/

它不起作用(它只是挂在那里)。这是因为单个wget命令获取的文件大小限制了吗?因为如果main_dir包含大约~10GB,则相同的命令有效。

此外,当尝试从服务器下载100GB时,是否会有替代品或任何特殊技巧?

1 个答案:

答案 0 :(得分:1)

如果有人仍然在寻找答案,那么这就是我从那以后所学到的。开头确实有一个缓慢的索引步骤,可以通过使用lftp并镜像站点来避免:

lftp -e "mirror path/to/dir/; quit" site.url

速度更快,并且还支持多个流下载(请参阅文档),最终将下载时间从大约12-24小时减少到大约1小时,非常大的传输。