为什么Hadoop HDFS -rmr命令超级快

时间:2013-10-10 04:20:59

标签: hadoop hdfs

在我在HDFS上的一个文件夹中,我有大约37千兆字节的数据

  

hadoop fs -dus my-folder-name

当我执行

  

hadoop fs -rmr my-folder-name

命令在闪存中执行。但是,在非分布式文件系统上,对于类似大小的目录,rm -rf需要更长的时间

为什么会有这么大的差异?我有一个2节点集群

2 个答案:

答案 0 :(得分:3)

事实是,当您发出hadoop fs -rmr时,Hadoop会将文件移动到HDFS上主目录下的.Trash文件夹中。在引擎盖下,我相信它只是在namenode上进行记录更改以移动HDFS上的文件位置。这就是为什么它非常快的原因。

答案 1 :(得分:1)

通常在操作系统中,删除命令会删除关联的元数据,而不会删除实际数据,因此会删除快速的原因。 HDFS的情况也是如此,该块可能仍然在DN中,但是对它们的所有引用都被删除了。请注意,delete命令会释放空间。