在pyspark中加入两个数据框

时间:2019-11-18 03:29:58

标签: dataframe pyspark

我有两个数据框:

df1

+----+----+
|key1|val1|
+----+----+
|a1  |   1|
|b1  |   2|
+----+----+

df2

+----+----+
|key2|val2|
+----+----+
|a2  |   3|
|b2  |   4|
+----+----+

然后我要合并这两个数据框以获得以下数据框:

df3

+----+----+----+----+
|key1|val1|key2|val2|
+----+----+
|a1  |   1|a2  |   3|
|a1  |   1|b2  |   4|
|b1  |   2|a2  |   3|
|b1  |   2|b2  |   4|
+----+----+

我如何在PySaprk中做到这一点?

1 个答案:

答案 0 :(得分:2)

按如下所示尝试cross join

df3 = df1.crossJoin(df2)
df3.show()

这应该提供您想要的输出。