如何在pyspark数据帧的一行中找到一组列的平均值,并将其作为另一列添加到同一数据帧?

时间:2018-09-19 13:23:11

标签: python dataframe pyspark

我有一个由500列组成的DataFrame,其中每行我需要获取以"country_"开头的一组列的平均值。

expr=[F.sum(train_data_df[x])/colCount for x in train_data_df.columns if 'country_' in x]
avg_train_data_df = train_data_df.withColumn('avg', *expr)

我收到以下错误响应:

  

TypeError: withColumn() takes 3 positional arguments but 212 were given

0 个答案:

没有答案