查找分组行中的最大列。 [使用PIG]

时间:2016-02-12 11:01:49

标签: hadoop apache-pig bigdata

我必须找到具有一些给定数据集的人创建的最大帖子数量,其中提供了用户ID,显示名称,年龄,评论数量,查看次数,日期,分数和每个帖子的标题。< / p>

要获得最大帖子的数量,我想,我们可以按用户ID进行分组。现在,在分组之后,我需要检查最多没有的ID。列。我不明白我将如何解决后一部分。请帮忙。

1 个答案:

答案 0 :(得分:0)

作为什么,我从你的问题中理解。我给你回答相应的。

试试这段代码:

a = load '<path>' using PigStorage(',') as(userId,displayName,age,commentsCount,viewCount,date,score,title)

b = group a by userId;

c = foreach b generate group,COUNT(a.title);

dump c;