我必须找到具有一些给定数据集的人创建的最大帖子数量,其中提供了用户ID,显示名称,年龄,评论数量,查看次数,日期,分数和每个帖子的标题。< / p>
要获得最大帖子的数量,我想,我们可以按用户ID进行分组。现在,在分组之后,我需要检查最多没有的ID。列。我不明白我将如何解决后一部分。请帮忙。
答案 0 :(得分:0)
作为什么,我从你的问题中理解。我给你回答相应的。
试试这段代码:
a = load '<path>' using PigStorage(',') as(userId,displayName,age,commentsCount,viewCount,date,score,title)
b = group a by userId;
c = foreach b generate group,COUNT(a.title);
dump c;