我正在使用ssh发出HDFS的copyFromLocal命令,如下所示(在脚本中):
ssh -t ubuntu@namenode_server "hdfs dfs -copyFromlocal data/file.csv /file.csv"
但是,我观察到非常奇怪的行为。对于9GB的文件,此ssh命令可能需要20分钟到25分钟的可变时间。但是,如果我只是从HDFS中删除文件并重新运行该命令,则该文件将始终在4分钟内执行。
将文件从一个HDFS群集移动到另一个群集时,文件的传输也大约需要3-4分钟(即使我更改了源群集和目标群集之间的块大小)。
我正在将EC2服务器用于HDFS群集。我正在使用Hadoop 2.7.6。
不确定第一次将文件从本地文件系统复制到HDFS为何需要这么长时间。