在我在HDFS上的一个文件夹中,我有大约37千兆字节的数据
hadoop fs -dus my-folder-name
当我执行
时hadoop fs -rmr my-folder-name
命令在闪存中执行。但是,在非分布式文件系统上,对于类似大小的目录,rm -rf需要更长的时间
为什么会有这么大的差异?我有一个2节点集群
答案 0 :(得分:3)
事实是,当您发出hadoop fs -rmr时,Hadoop会将文件移动到HDFS上主目录下的.Trash文件夹中。在引擎盖下,我相信它只是在namenode上进行记录更改以移动HDFS上的文件位置。这就是为什么它非常快的原因。
答案 1 :(得分:1)
通常在操作系统中,删除命令会删除关联的元数据,而不会删除实际数据,因此会删除快速的原因。 HDFS的情况也是如此,该块可能仍然在DN中,但是对它们的所有引用都被删除了。请注意,delete命令会释放空间。