在Hadoop中找到最大值

时间:2019-08-10 11:40:36

标签: hadoop mapreduce

我有以下任务:

一个存储文件的应用程序,使用户可以添加和删除文件。当发生此类事件时,我将附加到hdfs中的文件,添加文件时的以下记录:

用户ID图片-uuid size_in_bytes

以及删除文件时的以下内容

-userid image-uuid size_in_bytes

在化简器中计算平均值时,我将不得不减去已删除文件的大小,并减少总数以找到没有该文件的平均值。

删除是偶发事件。

如何计算整个数据集的平均大小和最大大小?

1 个答案:

答案 0 :(得分:0)

我刚刚发现我还有一个hadoop作业,可以找到每个userID的最大值。因此,我将遵循分而治之的方法。首先找到每个用户的最大值,然后在输出中运行较小的作业以找到总的最大值。