通过列[PySpark]连接两个DataFrame

时间:2017-10-05 03:39:24

标签: dataframe merge pyspark concatenation

我有两列,即(每列的条目数相同)

df1 =
+-------+
| col1  |
+-------+
|   10  |
+-------+
|   3   |
+-------+
...
df2 = 
+-------+
| col2  |
+-------+
|   6   |
+-------+
|   1   |
+-------+
...

我希望合并它们,以便最终的DataFrame具有以下形状:

df3 =
+-------+-------+
| col1  | col2  |
+-------+-------+
| 10    | 6     |
+-------+-------+
| 3     | 1     |
+-------+-------+
...

但我无法使用join方法执行此操作,因为我没有尝试根据列标题合并列。如果任何人有关于如何轻松实现这一目标的任何提示,那将非常有帮助!

1 个答案:

答案 0 :(得分:-1)

尝试

df1 = df1..withColumn(“ code”,monotonically_increasing_id()) df2 = df2..withColumn(“ code”,monotonically_increasing_id())

通过这种方式,您可以为他们提供一个列“代码”,您可以使用它们经典地合并两个df。

df 3 = df2.join(df1,[“代码”])