所以,假设我有一个这样的数据集:
Activity
当我融合第一个数据集时创建了一个单列数据集:
Y M D
2017 3 4
2017 2 5
我现在如何将它们加入到这样的东西中,并使用新的列名:
Y:M:D
2017:3:4
2017:2:5
答案 0 :(得分:1)
没关系,我错误地使用了一个函数,这就是它无法正常工作的原因。 这是解决方案: 作为D1的第一个数据集:
from pyspark.sql.functions import concat,lit
D1 = flights_df.withColumn('Date',
concat(col("Y"), lit(":"), col("M"),lit(":"),col("D")))