在PySpark中了解Apache Pig的GROUP A ALL

时间:2016-05-14 09:13:48

标签: apache-spark apache-pig pyspark

我还在学习大数据工具和机器学习。所以,我有一个使用PIG拉丁语的例子,它可以加载一个CSV文件并进行一些分组和分析。

Y = LOAD '...'
Y_all = GROUP Y_good ALL;
Umax  = FOREACH Y_all GENERATE MAX(Y_all.columnA);
DUMP Umax

这将获得columnA的最大值。现在我试图在PySpark中做同样的事情。但首先,我不理解GROUP ALL命令。我使用flatMap和reduceByKey。

感谢任何帮助。必须有一些方法以非常简单的方式获得最大价值。感觉就像我的脑袋一样空虚。

1 个答案:

答案 0 :(得分:0)

这是我找到的一个解决方案。

from pyspark.sql.functions import max
Y_all.select([max(Y_all.columnA)]).show()

但是有没有办法用flatMap / Map和reduceByKey来实现呢?