我有一个格式为
的数据集student_id|name|subject|marks
2 John English 50
3 mark Maths 50
3 mark English 50
这些数据加载到HDFS中,我需要计算每个学生使用猪的所有科目的平均值,这样做的猪方法是什么。
答案 0 :(得分:1)
按学生分组并获得平均值。假设您已将数据加载到关系A。
B = GROUP A BY (student);
C = FOREACH B GENERATE group,AVG(A.marks);
DUMP C;