在Spark中将2个数据帧与不同的列合并

时间:2019-01-24 05:50:15

标签: scala apache-spark dataframe join union

我有2个数据框:

df1:

Id    purchase_count   purchase_sim
12       100               1500
13       1020              1300
14       1010              1100
20       1090              1400
21       1300              1600

df2:

Id     click_count      click_sim
12       1030              2500
13       1020              1300
24       1010              1100
30       1090              1400
31       1300              1600

我需要获取组合数据框,其结果为:

Id     click_count      click_sim     purchase_count   purchase_sim
12       1030              2500            100               1500
13       1020              1300            1020              1300
14       null              null            1010              1100
24       1010              1100            null              null
30       1090              1400            null              null
31       1300              1600            null              null
20       null              null            1090              1400
21       null              null            1300              1600                                     

由于列名不同,我无法使用并集。有人可以建议我这样做的更好方法吗?

1 个答案:

答案 0 :(得分:1)

"12919851203"

请参考以下文档,以备将来参考。     https://docs.databricks.com/spark/latest/faq/join-two-dataframes-duplicated-column.html