如何添加多个Integer列值并创建一个列

时间:2018-07-23 04:09:40

标签: python pyspark apache-spark-sql

是否有任何可用于添加多个“整数列”值并创建新列的函数。

例如:多个计数到一个总计数列。

我希望concat仅适用于String列。

1 个答案:

答案 0 :(得分:1)

有两种简单的方法可以做到这一点。第一种是简单地使用+并键入列名称,另一种是使用addreduce的组合来一次求和许多列。

下面是一个示例,其中显示了两种方法来获取名称中带有x的所有列的总和(因此,总计中不包括列y1)。

希望这会有所帮助!

import pyspark.sql.functions as F
import pandas as pd

# SAMPLE DATA -----------------------------------------------------------------------
df = pd.DataFrame({'x1': [0,0,0,1,1],
                   'x2': [6,5,4,3,2],
                   'x3': [2,2,2,2,2],
                   'y1': [1,1,1,1,1]})
df = spark.createDataFrame(df)

# Sum by typing the column names explicitly
df = df.withColumn('total_1',F.col('x1') + F.col('x2') + F.col('x3'))

# Sum many columns without typing them out using reduce
import operator
import functools
cols_to_sum = [col for col in df.columns if 'x' in col] 
df = df.withColumn('total_2',functools.reduce(operator.add, [F.col(x) for x in cols_to_sum]))

df.show()

输出:

+---+---+---+---+-------+-------+
| x1| x2| x3| y1|total_1|total_2|
+---+---+---+---+-------+-------+
|  0|  6|  2|  1|      8|      8|
|  0|  5|  2|  1|      7|      7|
|  0|  4|  2|  1|      6|      6|
|  1|  3|  2|  1|      6|      6|
|  1|  2|  2|  1|      5|      5|
+---+---+---+---+-------+-------+