我正在使用具有共同列的2个数据框来开发pyspark(Spark 2.2.0)。我要处理的要求如下:按照以下规则加入2个框架。
frame1 = [第1列,第2列,第3列......... column_n] ###数据帧
frame2 = [第1列,第2列,第3列......... column_n] ###数据帧
key = [第1列,第2列] ###是一个数组
If frame1.[Column1, column2] == frame1.[Column1, column2]
if frame1.column_n == frame2.column_n
write to a new data frame DF_A using values from frame 2 as is
if frame1.column_n != frame2.column_n
write to a new data frame DF_A using values from frame 1 as is
write to a new data frame DF_B using values from frame 2 but with column3, & column 5 hard coded values
为此,我首先创建2个临时视图并动态构造3个SQL。
sql_1 = select frame1.* from frame1 join frame2 on [frame1.keys] = [frame2.keys]
where frame1.column_n=frame2.column_n
DFA = sqlContext.sql(sql_1)
sql_2 = select [all columns from frame1] from frame1 join frame2 on [frame1.keys] = [frame2.keys]
where frame1.column_n != frame2.column_n
DF_A = DF_A.union(sqlContext.sql(sql_2))
sql_3 = select [all columns from frame2 except for column3 & column5 to be hard coded] from frame1 join frame2 on [frame1.keys] = [frame2.keys]
where frame1.column_n != frame2.column_n
DF_B = sqlContext.sql(sql_1)
问题1:是否有更好的方法来动态传递要加入的键列?我目前正在通过维护数组中的关键列(正在运行)并构造SQL来进行此操作。
问题2:是否有更好的方法可以动态传递选择列而不更改列顺序?我目前正在通过在数组中维护列名并执行串联来实现此目的。
我确实考虑过一个完整的外部联接选项,但是由于列名相同,所以我认为它将有更多的重命名开销。
答案 0 :(得分:0)
对于问题1和问题2,我继续从数据帧架构中获取列名(df.schema.names和df.columns)并在循环内进行字符串处理。
在逻辑上,我最少使用了2条SQL,其中1条具有完整的外部联接。