Question

我正在使用具有共同列的2个数据框来开发pyspark（Spark 2.2.0）。我要处理的要求如下：按照以下规则加入2个框架。

frame1 = [第1列，第2列，第3列......... column_n] ###数据帧

frame2 = [第1列，第2列，第3列......... column_n] ###数据帧

key = [第1列，第2列] ###是一个数组

If frame1.[Column1, column2] == frame1.[Column1, column2]

 if frame1.column_n ==  frame2.column_n 
   write to a new data frame DF_A using values from frame 2 as is

 if frame1.column_n !=  frame2.column_n
   write to a new data frame DF_A using values from frame 1 as is
   write to a new data frame DF_B using values from frame 2 but with column3, & column 5 hard coded values

为此，我首先创建2个临时视图并动态构造3个SQL。

  sql_1 = select frame1.* from  frame1 join frame2 on [frame1.keys] = [frame2.keys]
  where frame1.column_n=frame2.column_n
  DFA = sqlContext.sql(sql_1)

  sql_2 = select [all columns from frame1]  from  frame1 join frame2 on         [frame1.keys] = [frame2.keys]
  where frame1.column_n != frame2.column_n
  DF_A = DF_A.union(sqlContext.sql(sql_2))

  sql_3 = select [all columns from frame2 except for column3 & column5 to be hard coded] from  frame1 join frame2 on [frame1.keys] = [frame2.keys]
  where frame1.column_n != frame2.column_n
  DF_B = sqlContext.sql(sql_1)

问题1：是否有更好的方法来动态传递要加入的键列？我目前正在通过维护数组中的关键列（正在运行）并构造SQL来进行此操作。

问题2：是否有更好的方法可以动态传递选择列而不更改列顺序？我目前正在通过在数组中维护列名并执行串联来实现此目的。

我确实考虑过一个完整的外部联接选项，但是由于列名相同，所以我认为它将有更多的重命名开销。

Answer 1

对于问题1和问题2，我继续从数据帧架构中获取列名（df.schema.names和df.columns）并在循环内进行字符串处理。

在逻辑上，我最少使用了2条SQL，其中1条具有完整的外部联接。

pyspark处理并比较2个数据帧

1 个答案: