Hadoop Distcp:输入大小大于输出大小

时间:2019-09-22 22:34:35

标签: hadoop distcp

我正在将文件夹从一个路径复制到另一路径,基本上是创建备份。 源(输入)文件夹的大小为5 TB。我使用以下distcp命令进行复制:

hadoop distcp -m 150 <source_folder_path> <destination_folder_path>
hadoop fs -du -s -h source_folder
hadoop fs -du -s -h destination_folder
hadoop fs -ls source_folder | wc -l
hadoop fs -ls destination_folder | wc -l

这是在同一群集中。 我无法理解为什么我的输入文件夹为5 TB,而输出文件夹仅为1 TB。作业成功完成,没有任何错误。 我也看到输入和输出中文件的数量相同。 在此过程中,我不使用任何压缩功能。有人可以向我指出为什么会这样。 Hadoop版本是2.7

0 个答案:

没有答案