如何在Apache Spark中按列合并两个数据帧

时间:2016-05-13 20:25:09

标签: apache-spark merge apache-spark-sql spark-dataframe

我有以下两个数据框,每个数据框只有一列,并且具有完全相同的行数。如何合并它们以便我获得一个新的数据框,其中包含两列和来自两个数据框的所有行。例如,

DF1:

+-----+
| ColA|
+-----+
|    1|
|    2|
|    3|
|    4|
+-----+

DF2:

+-----+
| ColB|
+-----+
|    5|
|    6|
|    7|
|    8|
+-----+

我想要合并的结果 的 DF3:

+-----+-----+
| ColA| ColB|
+-----+-----+
|    1|    5|
|    2|    6|
|    3|    7|
|    4|    8|
+-----+-----+

我不太清楚如何使用 join 方法执行此操作,因为只有一列并且在没有任何条件的情况下连接将在两列之间创建一个笛卡尔连接。

是否有直接的SPARK数据帧API调用来执行此操作?在R数据帧中,我看到有一个 merge 函数来合并两个数据帧。但是我不知道它是否与join相似。

0 个答案:

没有答案