我有以下任务:
一个存储文件的应用程序,使用户可以添加和删除文件。当发生此类事件时,我将附加到hdfs中的文件,添加文件时的以下记录:
用户ID图片-uuid size_in_bytes
以及删除文件时的以下内容
-userid image-uuid size_in_bytes
在化简器中计算平均值时,我将不得不减去已删除文件的大小,并减少总数以找到没有该文件的平均值。
删除是偶发事件。
如何计算整个数据集的平均大小和最大大小?
答案 0 :(得分:0)
我刚刚发现我还有一个hadoop作业,可以找到每个userID的最大值。因此,我将遵循分而治之的方法。首先找到每个用户的最大值,然后在输出中运行较小的作业以找到总的最大值。