请原谅我这个基本问题。 但我想知道为什么当我们尝试加载一些大小超过块大小的文件时,mapreduce工作不会启动。
某处我了解到MapReduce将负责将数据集从LFS加载到HDFS。那么为什么当我给hadoop fs -put命令时,我无法在控制台上看到mapreduce日志呢?
先谢谢。
答案 0 :(得分:2)
您正在考虑将产生MapReduce作业的hadoop distcp。
https://hadoop.apache.org/docs/stable/hadoop-distcp/DistCp.html
DistCp版本2(分布式副本)是用于大型帧间/帧内群集复制的工具。它使用MapReduce实现其分发,错误处理和恢复以及报告。它将文件和目录列表扩展为映射任务的输入,每个任务都将复制源列表中指定的文件的分区。
hadoop fs -put
或hdfs dfs -put
完全由HDFS实施,不需要MapReduce。