是否有任何可用于添加多个“整数列”值并创建新列的函数。
例如:多个计数到一个总计数列。
我希望concat仅适用于String列。
答案 0 :(得分:1)
有两种简单的方法可以做到这一点。第一种是简单地使用+
并键入列名称,另一种是使用add
和reduce
的组合来一次求和许多列。
下面是一个示例,其中显示了两种方法来获取名称中带有x
的所有列的总和(因此,总计中不包括列y1
)。
希望这会有所帮助!
import pyspark.sql.functions as F
import pandas as pd
# SAMPLE DATA -----------------------------------------------------------------------
df = pd.DataFrame({'x1': [0,0,0,1,1],
'x2': [6,5,4,3,2],
'x3': [2,2,2,2,2],
'y1': [1,1,1,1,1]})
df = spark.createDataFrame(df)
# Sum by typing the column names explicitly
df = df.withColumn('total_1',F.col('x1') + F.col('x2') + F.col('x3'))
# Sum many columns without typing them out using reduce
import operator
import functools
cols_to_sum = [col for col in df.columns if 'x' in col]
df = df.withColumn('total_2',functools.reduce(operator.add, [F.col(x) for x in cols_to_sum]))
df.show()
输出:
+---+---+---+---+-------+-------+
| x1| x2| x3| y1|total_1|total_2|
+---+---+---+---+-------+-------+
| 0| 6| 2| 1| 8| 8|
| 0| 5| 2| 1| 7| 7|
| 0| 4| 2| 1| 6| 6|
| 1| 3| 2| 1| 6| 6|
| 1| 2| 2| 1| 5| 5|
+---+---+---+---+-------+-------+