PySpark聚合查询并获取整个行内容

时间:2018-12-01 21:25:26

标签: python pyspark pyspark-sql

我有一个数据框...

+----+------+
|year| count|
+----+------+
|2001|485738|
|2002|486742|
|2003|475923|
|2004|469366|
|2005|453686|

我想获取最大值,最小值,平均值等及其发生的年份。

我觉得这不应该是两个步骤。我的第一步是获取最大值,然后获取与之关联的年份。

获得价值:

max_year_value = df.agg({"count":"max"}).collect()[0][0]

根据该值获取年份:

max_year = df.filter(df['count'] == max_year_value).select('year').collect()[0][0]

这可以一步完成吗?还是经过优化?

0 个答案:

没有答案