我有一个NFL数据集,我试图按球员的姓名分组,然后添加他们管理用于某些分析的完整传球的数量。但是,即使是按玩家分组,我也很难达到第一步。这是我到目前为止的内容:
from pyspark.sql.types import IntegerType
from IPython.display import display
sql_sc = SQLContext(sc)
df = sqlContext.read\
.format('com.databricks.spark.csv')\
.options(header='true', inferschema='true')\
.load('NFL Play by Play 2009-2018 (v5).csv')
df = df.withColumn("complete_pass", df["complete_pass"].cast(IntegerType()))
df = df.withColumn("pass_attempt", df["pass_attempt"].cast(IntegerType()))
test = df.groupBy("passer_player_name").sum("complete_pass")
display(test)
我希望至少能获得每个玩家的完成总数,但是我只是得到了这个:
DataFrame[passer_player_name: string, sum(complete_pass): bigint]
我知道这可能是一个非常基本的问题,但是我对此完全陌生!