hadoop - cp命令在Hadoop中如何工作？

我正在阅读“ Hadoop：权威指南”，并解释我的问题，让我引用本书中的内容

distcp被实现为MapReduce作业，其中复制工作由在整个集群中并行运行的映射。没有减速器。每个文件被复制一张地图，然后distcp尝试为每张地图赋予大致相同的数量通过将文件存储到大致相等的分配中来存储数据。默认情况下，最多使用20个映射，但是可以通过在distcp中指定-m参数来更改此映射。

和脚注

即使对于单个文件副本，distcp变体也适用于大文件，因为hadoop fs -cp复制文件通过运行命令的客户端。

我理解为什么distcp可以更好地收集文件，因为不同的映射器在单个文件上并行执行每个映射器。但是，当仅要复制一个文件时，为什么在文件大小较大时（根据脚注）distcp的性能会更好。我只是一个入门，因此如果解释了hadoop中cp命令的工作方式以及“ hadoop fs -cp通过运行该命令的客户端复制文件”的含义，将对您有所帮助。我了解Hadoop的写入过程，该书中解释了Hadoop的写入过程，该过程中形成了一个数据节点管道，每个数据节点负责将数据写入管道中的以下数据节点。

cp命令在Hadoop中如何工作？

1 个答案: