pyspark处理并比较2个数据帧

时间:2018-09-14 10:20:15

标签: pyspark apache-spark-sql dynamic-sql

我正在使用具有共同列的2个数据框来开发pyspark(Spark 2.2.0)。我要处理的要求如下:按照以下规则加入2个框架。

frame1 = [第1列,第2列,第3列......... column_n] ###数据帧

frame2 = [第1列,第2列,第3列......... column_n] ###数据帧

key = [第1列,第2列] ###是一个数组

If frame1.[Column1, column2] == frame1.[Column1, column2]

 if frame1.column_n ==  frame2.column_n 
   write to a new data frame DF_A using values from frame 2 as is

 if frame1.column_n !=  frame2.column_n
   write to a new data frame DF_A using values from frame 1 as is
   write to a new data frame DF_B using values from frame 2 but with column3, & column 5 hard coded values       

为此,我首先创建2个临时视图并动态构造3个SQL。

  sql_1 = select frame1.* from  frame1 join frame2 on [frame1.keys] = [frame2.keys]
  where frame1.column_n=frame2.column_n
  DFA = sqlContext.sql(sql_1)

  sql_2 = select [all columns from frame1]  from  frame1 join frame2 on         [frame1.keys] = [frame2.keys]
  where frame1.column_n != frame2.column_n
  DF_A = DF_A.union(sqlContext.sql(sql_2))

  sql_3 = select [all columns from frame2 except for column3 & column5 to be hard coded] from  frame1 join frame2 on [frame1.keys] = [frame2.keys]
  where frame1.column_n != frame2.column_n
  DF_B = sqlContext.sql(sql_1)

问题1:是否有更好的方法来动态传递要加入的键列?我目前正在通过维护数组中的关键列(正在运行)并构造SQL来进行此操作。

问题2:是否有更好的方法可以动态传递选择列而不更改列顺序?我目前正在通过在数组中维护列名并执行串联来实现此目的。

我确实考虑过一个完整的外部联接选项,但是由于列名相同,所以我认为它将有更多的重命名开销。

1 个答案:

答案 0 :(得分:0)

对于问题1和问题2,我继续从数据帧架构中获取列名(df.schema.names和df.columns)并在循环内进行字符串处理。

在逻辑上,我最少使用了2条SQL,其中1条具有完整的外部联接。