Apache Pig学生标记平均计算

时间:2017-11-30 13:30:47

标签: mapreduce apache-pig

我有一个格式为

的数据集
student_id|name|subject|marks

2          John English   50

3          mark Maths     50

3          mark English   50

这些数据加载到HDFS中,我需要计算每个学生使用猪的所有科目的平均值,这样做的猪方法是什么。

1 个答案:

答案 0 :(得分:1)

按学生分组并获得平均值。假设您已将数据加载到关系A。

B = GROUP A BY (student);
C = FOREACH B GENERATE group,AVG(A.marks);
DUMP C;