我们在亚马逊EMR上使用默认配置的hadoop + hbase群集,因此mapred.child.tmp
和hbase.tmp.dir
都指向/tmp
。我们的群集已运行一段时间,现在/tmp
为500Gb,而实际/hbase
数据为70Gb。
这种差异似乎太大了,我们是否应该定期删除一些/tmp
数据?
答案 0 :(得分:1)
经过一番调查后,我发现我们/tmp
数据的最大部分是由亚马逊自动备份Hbase到S3期间失败的mapreduce任务创建的。我们成功的mapreduce任务不会在/tmp
中留下太多数据。
我们决定禁用亚马逊的自动备份,并使用Hbase工具实现我们自己的备份脚本,以便导入/导出表格。