Question

我有一个NFL数据集，我试图按球员的姓名分组，然后添加他们管理用于某些分析的完整传球的数量。但是，即使是按玩家分组，我也很难达到第一步。这是我到目前为止的内容：

from pyspark.sql.types import IntegerType
from IPython.display import display

sql_sc = SQLContext(sc)

df = sqlContext.read\
    .format('com.databricks.spark.csv')\
    .options(header='true', inferschema='true')\
    .load('NFL Play by Play 2009-2018 (v5).csv')

df = df.withColumn("complete_pass", df["complete_pass"].cast(IntegerType()))
df = df.withColumn("pass_attempt", df["pass_attempt"].cast(IntegerType()))


test = df.groupBy("passer_player_name").sum("complete_pass")
display(test)

我希望至少能获得每个玩家的完成总数，但是我只是得到了这个：

DataFrame[passer_player_name: string, sum(complete_pass): bigint]

我知道这可能是一个非常基本的问题，但是我对此完全陌生！

按名称分组，然后合计另一列的编号

0 个答案: