基于条件的PySpark过滤选择.groupby

时间:2020-04-04 13:02:46

标签: python pyspark pyspark-sql

我正在尝试使用.groupBy函数根据国家/地区(美国=美国)的排名来查找AVG得分

这是我当前的代码:该代码可显示每个国籍,但我只希望它根据排名显示平均得分(仅适用于美国玩家)。任何帮助将不胜感激。

df.groupby(['Nationality', 'Position])\
    .agg({"Score": "AVG"})\
    .orderBy("Nationality", ascending=True)\
    .show()

1 个答案:

答案 0 :(得分:1)

只需在您的分组依据之前插入df.filter(df.Nationality == "USA)

df.filter(df.Nationality == "USA")\
.groupby(['Nationality', 'Position'])\
.agg({"Score": "AVG"})\
.orderBy("Nationality", ascending=True)\
.show()