按名称分组,然后合计另一列的编号

时间:2019-05-01 12:39:30

标签: apache-spark pyspark pyspark-sql

我有一个NFL数据集,我试图按球员的姓名分组,然后添加他们管理用于某些分析的完整传球的数量。但是,即使是按玩家分组,我也很难达到第一步。这是我到目前为止的内容:

from pyspark.sql.types import IntegerType
from IPython.display import display

sql_sc = SQLContext(sc)

df = sqlContext.read\
    .format('com.databricks.spark.csv')\
    .options(header='true', inferschema='true')\
    .load('NFL Play by Play 2009-2018 (v5).csv')

df = df.withColumn("complete_pass", df["complete_pass"].cast(IntegerType()))
df = df.withColumn("pass_attempt", df["pass_attempt"].cast(IntegerType()))


test = df.groupBy("passer_player_name").sum("complete_pass")
display(test)

我希望至少能获得每个玩家的完成总数,但是我只是得到了这个:

DataFrame[passer_player_name: string, sum(complete_pass): bigint]

我知道这可能是一个非常基本的问题,但是我对此完全陌生!

0 个答案:

没有答案