对于MapReduce作业生成的临时数据应该不使用的HDFS空间量是否有通用公式或最佳实践估算?对于Cloudera和MapR等不同的供应商,这有何变化?当我调整Pig脚本时,我已经完成了一些工作,将我的集群从20GB升级到60GB,再次返回小型测试工作。我问群集规划这个问题。
这个决定有哪些因素?我假设减速器的数量在生成的临时数据量,作业的特性中发挥作用(例如,如果我有一个带有20个语句的Pig脚本,我注意到临时数据不是&# 39;删除直到所有20个语句都被执行;如果我想最小化临时数据,我应该将20个语句分成3个脚本文件并连续运行每个语句,以及其他因素。