pyspark加入2个以上的数据帧

时间:2017-01-17 10:27:45

标签: python apache-spark pyspark spark-dataframe

假设我有100个数据框,我如何将它组合成具有所有列的单个数据框。我的数据框看起来像,

id  name  marks
00  abc   70
01  def   67
02  ghi   68
03  jkl    90


id  name  class
00  abc A
01  def    B
02  ghi B
03  jkl    A


id  name  std
00  abc    1
01  def    2
02  ghi    3
03  jkl    4

id  name  city
00  abc    mex
01  def    nyc
02  ghi    ind
03  jkl    aus

所以我有50多个数据框,所以最后一列每次都在变化。

所以我的问题是如何制作单个结果数据帧,如下所示,

 id  name  marks  class  std  city
 00  abc    70      A     1    mex
 01  def     67     B     2    nyc
 02  ghi     68     B     3    la
 03  jkl     90     A     4    aus

1 个答案:

答案 0 :(得分:0)

您可以使用嵌套的spark SQL查询加入其中几个,但是加入其中五十个会占用大量时间。