在pyspark中使用union或append合并两个不同宽度的数据帧

时间:2019-02-20 23:48:17

标签: pyspark

df1.union(df2)

如何将其扩展为处理具有不同列数的pyspark数据帧?

1 个答案:

答案 0 :(得分:3)

我建议添加那些值为NULL的列

df.withColumn('missing_column_name',lit(None)).withCol......

然后执行合并。

同样重要的是,每一列的位置应彼此匹配,否则您可以使用unionByName。