使用FileUtil API在同一个hdfs中复制文件花费了太多时间

时间:2016-11-11 04:18:50

标签: java hadoop hdfs

我有1个HDFS和我的本地系统,我正在执行我的程序,在同一个hdfs系统中执行复制。 喜欢:hadoop fs -cp /user/hadoop/SrcFile /user/hadoop/TgtFile

我正在使用:

FileUtil.copy(FileSystem srcFS,
FileStatus srcStatus,
FileSystem dstFS,
Path dst,
boolean deleteSource,
boolean overwrite,
Configuration conf) 

但是有些奇怪的事情正在发生,当我从命令行进行复制时,它需要花一点时间来复制,但是当我以编程方式进行复制时,需要10到15分钟来复制190 MB的文件。

对我而言,它看起来像是通过我的本地系统流式传输数据而不是直接流式传输,因为目标也与源文件系统在同一文件系统上。

如果我错了,请纠正我,并帮助我找到最佳解决方案。

1 个答案:

答案 0 :(得分:1)

你是对的,使用FileUtil.copy,流式传输通过你的程序(src - > yourprogram - > dst)。如果hadoops文件系统shell API(hadoop dfs -cp)比你通过Runtime.exec(cmd)使用它更快

https://github.com/apache/hadoop/blob/trunk/hadoop-common-project/hadoop-common/src/main/java/org/apache/hadoop/fs/FileUtil.java