应用错误收集

对于MapReduce作业生成的临时数据应该不使用的HDFS空间量是否有通用公式或最佳实践估算？对于Cloudera和MapR等不同的供应商，这有何变化？当我调整Pig脚本时，我已经完成了一些工作，将我的集群从20GB升级到60GB，再次返回小型测试工作。我问群集规划这个问题。

这个决定有哪些因素？我假设减速器的数量在生成的临时数据量，作业的特性中发挥作用（例如，如果我有一个带有20个语句的Pig脚本，我注意到临时数据不是＆＃ 39;删除直到所有20个语句都被执行;如果我想最小化临时数据，我应该将20个语句分成3个脚本文件并连续运行每个语句，以及其他因素。