什么是hadoop hdfs中的/ tmp目录?

时间:2014-07-22 11:15:22

标签: hadoop temporary-files

我有4个数据节点的集群,每个节点上的hdfs结构如下所示

enter image description here

我遇到了磁盘空间问题,因为您可以看到hdfs中的 / tmp 文件夹占用了更多空间(217GB)。所以我试图调查 / tmp 文件夹中的数据。我找到了以下临时文件。我访问了这些临时文件夹,每个文件夹包含一些10gb到20GB大小的部分文件。 我想清除这个/ tmp目录。任何人都可以让我知道删除这些tmp文件夹或部分文件的后果。它会影响我的群集吗?

enter image description here

1 个答案:

答案 0 :(得分:16)

HDFS / tmp目录主要用作mapreduce操作期间的临时存储。 Mapreduce工件,中间数据等将保存在此目录下。 mapreduce作业执行完成后,这些文件将自动清除。如果删除此临时文件,则会影响当前运行的mapreduce作业。

临时文件由pig创建。临时文件删除最后发生。如果脚本执行失败或被杀死,Pig不会处理临时文件删除。然后你必须处理这种情况。您最好在脚本本身处理此临时文件清理活动。

以下文章为您提供了一个很好的理解

http://www.lopakalogic.com/articles/hadoop-articles/pig-keeps-temp-files/