如何在Spark DataFrame中添加包含平均值和计数之类的列的列?

时间:2019-05-19 02:29:10

标签: dataframe group-by pyspark pyspark-sql

这是我的代码:

DF = DF.withColumn("MAX",DF.groupBy("NUM_TIERS").max())

它给了我以下错误:

  

中的

AssertionError Traceback(最近一次通话最后一次)      

/usr/local/Cellar/spark/python/pyspark/sql/dataframe.py在   withColumn(self,colName,col)1986 1987“”“   -> 1988 assert isinstance(col,Column),“ col应该是列” 1989 return DataFrame(self._jdf.withColumn(colName,col._jc),   self.sql_ctx)1990

     

AssertionError:col应该是Column

enter image description here

1 个答案:

答案 0 :(得分:0)

我不会以这种方式理解您的问题,但是根据我的理解,请检查它。

from pyspark.sql.functions import lit
DF=DF.withColumn("MAX",lit(DF.groupBy("NUM_TIERS").max().count()))