Pyspark,如何添加新的现有列

时间:2018-01-02 12:52:45

标签: python pyspark

所以,假设我有一个这样的数据集:

Activity

当我融合第一个数据集时创建了一个单列数据集:

Y     M     D
2017  3     4
2017  2     5

我现在如何将它们加入到这样的东西中,并使用新的列名:

Y:M:D
2017:3:4
2017:2:5

1 个答案:

答案 0 :(得分:1)

没关系,我错误地使用了一个函数,这就是它无法正常工作的原因。 这是解决方案: 作为D1的第一个数据集:

from pyspark.sql.functions import concat,lit
D1 = flights_df.withColumn('Date', 
                concat(col("Y"), lit(":"), col("M"),lit(":"),col("D")))