我有一个数据框...
+----+------+
|year| count|
+----+------+
|2001|485738|
|2002|486742|
|2003|475923|
|2004|469366|
|2005|453686|
我想获取最大值,最小值,平均值等及其发生的年份。
我觉得这不应该是两个步骤。我的第一步是获取最大值,然后获取与之关联的年份。
获得价值:
max_year_value = df.agg({"count":"max"}).collect()[0][0]
根据该值获取年份:
max_year = df.filter(df['count'] == max_year_value).select('year').collect()[0][0]
这可以一步完成吗?还是经过优化?