Question

我有1个HDFS和我的本地系统，我正在执行我的程序，在同一个hdfs系统中执行复制。喜欢：hadoop fs -cp /user/hadoop/SrcFile /user/hadoop/TgtFile

我正在使用：

FileUtil.copy(FileSystem srcFS,
FileStatus srcStatus,
FileSystem dstFS,
Path dst,
boolean deleteSource,
boolean overwrite,
Configuration conf)

但是有些奇怪的事情正在发生，当我从命令行进行复制时，它需要花一点时间来复制，但是当我以编程方式进行复制时，需要10到15分钟来复制190 MB的文件。

对我而言，它看起来像是通过我的本地系统流式传输数据而不是直接流式传输，因为目标也与源文件系统在同一文件系统上。

如果我错了，请纠正我，并帮助我找到最佳解决方案。

Answer 1

你是对的，使用FileUtil.copy，流式传输通过你的程序（src - ＆gt; yourprogram - ＆gt; dst）。如果hadoops文件系统shell API（hadoop dfs -cp）比你通过Runtime.exec（cmd）使用它更快