我将使用wget从服务器下载相当大量的数据(~50-100 GB,几千个文件)。这将是相当时间关键的,所以我想问几个关于性能的问题。
1)运行wget时,似乎有一个非常长的初始阶段,没有下载发生,然后突然启动。这个阶段似乎比实际下载明显更长。在wget过程开始时会发生什么,有没有办法加速它?
在此阶段,没有网络活动,而top
上的wget似乎不是非常活跃。它可能与wget的-erobots=off
选项有关吗?
2)我要下载的文件结构如下:
.../main_dir/
000001/
file1
file2
...
000002/
...
...
main_dir
总共包含约50-100GB。但是,如果我尝试使用如下命令递归下载main_dir
:
wget -q -nH --cut-dirs=6 -r --level=7 -l0 -c -N -np -R 'index*' -erobots=off https:.../main_dir/
它不起作用(它只是挂在那里)。这是因为单个wget命令获取的文件大小限制了吗?因为如果main_dir
包含大约~10GB,则相同的命令有效。
此外,当尝试从服务器下载100GB时,是否会有替代品或任何特殊技巧?
答案 0 :(得分:1)
如果有人仍然在寻找答案,那么这就是我从那以后所学到的。开头确实有一个缓慢的索引步骤,可以通过使用lftp
并镜像站点来避免:
lftp -e "mirror path/to/dir/; quit" site.url
速度更快,并且还支持多个流下载(请参阅文档),最终将下载时间从大约12-24小时减少到大约1小时,非常大的传输。