假设pyspark中的以下两个Dataframe具有相同的行数:
DF1:
| _ Column1a
| _ Column1b
DF2:
| _ Column2a
| _ Column2b
我希望创建一个新的DataFrame" df"它只有Column1a和Column 2a。什么是最好的解决方案?
答案 0 :(得分:0)
Denny Lee的回答就是这样 它涉及在两个DataFrame上创建另一列,即每行的 Unique_Row_ID 。然后,我们在 Unique_Row_ID 上执行连接。然后根据需要删除 Unique_Row_ID 。