我有一个包含大约300 GB数据的目录,这些数据可能也被复制了3次。
我刚刚使用hadoop dfs -rmr
删除了文件,我想知道Hadoop删除文件的过程是什么?在几秒钟内,我收到一条消息,说它已被删除,但实际空间需要多长时间才能清理300GB和复制的分片?
我正在使用Hadoop版本0.20.2
由于
答案 0 :(得分:1)
hadoop文件系统处理删除操作的方式与文件传输到HDFS时创建块的方式相同。 hadoop dfs -rmr shell命令由名称节点接收,该命令保存有关文件的已分配块的元数据。删除操作被通知给各个数据节点,然后删除磁盘上存在的块及其复制。
如果在非HDFS上的简单文件上运行,操作将花费一些时间,但由于我们在分布式环境中,所以涉及的时间减少了许多倍,例如1000 GB文件在单个非文件上需要100秒HDFS,在十个数据节点HDFS上需要10秒钟。我希望这有用。