多个数据帧的最佳方法是什么?

时间:2016-11-08 09:30:42

标签: hadoop apache-spark

我有4个数据框。 的 DF1 姓名,身份证,年龄

DF2 名称,ID,组

DF3 名称,ID,城市

DF4 name,id,ctry

我要使用相同'name'和'id'的macth加入所有4个数据帧。 例如 DF

名称,ID,年龄,群组,城市,ctry

1 个答案:

答案 0 :(得分:1)

尝试:

List(df1, df2, df3, df4).reduce(_ join (_, Seq("name", "id")))