我还在学习大数据工具和机器学习。所以,我有一个使用PIG拉丁语的例子,它可以加载一个CSV文件并进行一些分组和分析。
Y = LOAD '...'
Y_all = GROUP Y_good ALL;
Umax = FOREACH Y_all GENERATE MAX(Y_all.columnA);
DUMP Umax
这将获得columnA的最大值。现在我试图在PySpark中做同样的事情。但首先,我不理解GROUP ALL命令。我使用flatMap和reduceByKey。
感谢任何帮助。必须有一些方法以非常简单的方式获得最大价值。感觉就像我的脑袋一样空虚。
答案 0 :(得分:0)
这是我找到的一个解决方案。
from pyspark.sql.functions import max
Y_all.select([max(Y_all.columnA)]).show()
但是有没有办法用flatMap / Map和reduceByKey来实现呢?