Question

我还在学习大数据工具和机器学习。所以，我有一个使用PIG拉丁语的例子，它可以加载一个CSV文件并进行一些分组和分析。

Y = LOAD '...'
Y_all = GROUP Y_good ALL;
Umax  = FOREACH Y_all GENERATE MAX(Y_all.columnA);
DUMP Umax

这将获得columnA的最大值。现在我试图在PySpark中做同样的事情。但首先，我不理解GROUP ALL命令。我使用flatMap和reduceByKey。

感谢任何帮助。必须有一些方法以非常简单的方式获得最大价值。感觉就像我的脑袋一样空虚。

Answer 1

这是我找到的一个解决方案。

from pyspark.sql.functions import max
Y_all.select([max(Y_all.columnA)]).show()

但是有没有办法用flatMap / Map和reduceByKey来实现呢？