应用错误收集

在亚马逊EMR上运行HBase时，为什么/ tmp文件夹与实际数据相比是巨大的？

时间：2012-09-17 13:37:53

标签： hadoop hbase amazon-emr

我们在亚马逊EMR上使用默认配置的hadoop + hbase群集，因此mapred.child.tmp和hbase.tmp.dir都指向/tmp。我们的群集已运行一段时间，现在/tmp为500Gb，而实际/hbase数据为70Gb。

这种差异似乎太大了，我们是否应该定期删除一些/tmp数据？

1 个答案:

答案 0 :(得分：1)

经过一番调查后，我发现我们/tmp数据的最大部分是由亚马逊自动备份Hbase到S3期间失败的mapreduce任务创建的。我们成功的mapreduce任务不会在/tmp中留下太多数据。

我们决定禁用亚马逊的自动备份，并使用Hbase工具实现我们自己的备份脚本，以便导入/导出表格。