应用错误收集

在Hadoop中找到最大值

时间：2019-08-10 11:40:36

标签： hadoop mapreduce

我有以下任务：

一个存储文件的应用程序，使用户可以添加和删除文件。当发生此类事件时，我将附加到hdfs中的文件，添加文件时的以下记录：

用户ID图片-uuid size_in_bytes

以及删除文件时的以下内容

-userid image-uuid size_in_bytes

在化简器中计算平均值时，我将不得不减去已删除文件的大小，并减少总数以找到没有该文件的平均值。

删除是偶发事件。

如何计算整个数据集的平均大小和最大大小？

1 个答案:

答案 0 :(得分：0)

我刚刚发现我还有一个hadoop作业，可以找到每个userID的最大值。因此，我将遵循分而治之的方法。首先找到每个用户的最大值，然后在输出中运行较小的作业以找到总的最大值。