在数据框的列上应用映射功能

时间:2020-07-01 05:50:52

标签: python dataframe apache-spark pyspark

我需要将数据框列的所有值合并为每个列的单个值。所以这些列保持不变,但我只是对所有各个值求和。 为此,我打算利用此功能:

def sum_col(data, col):
    return data.select(f.sum(col)).collect()[0][0]

我现在正在考虑做某事:

data = data.map(lambda current_col: sum_col(data, current_col))

这可行吗,还是我需要另一种方式合并列的所有值?

2 个答案:

答案 0 :(得分:2)

您可以通过求和函数来实现

import pyspark.sql.functions as f
df.select(*[f.sum(cols).alias(cols) for cols in df.columns]).show()

+----+---+---+
|val1|  x|  y|
+----+---+---+
|  36| 29|159|
+----+---+---+

答案 1 :(得分:1)

要将所有列汇总为新列,您可以将列表理解与python的sum函数一起使用

import pyspark.sql.functions as F
from pyspark.sql.functions import udf
from pyspark.sql.types import *
tst= sqlContext.createDataFrame([(10,7,14),(5,1,4),(9,8,10),(2,6,90),(7,2,30),(3,5,11)],schema=['val1','x','y'])
tst_sum= tst.withColumn("sum_col",sum([tst[coln] for coln in tst.columns]))

结果:

tst_sum.show()
+----+---+---+-------+
|val1|  x|  y|sum_col|
+----+---+---+-------+
|  10|  7| 14|     31|
|   5|  1|  4|     10|
|   9|  8| 10|     27|
|   2|  6| 90|     98|
|   7|  2| 30|     39|
|   3|  5| 11|     19|
+----+---+---+-------+

注意:如果您从pyspark函数中将sum函数导入为from import pyspark.sql.functions import sum,则必须将名称更改为其他名称,例如from import pyspark.sql.functions import sum_pyspark