在PySpark的两个不同的pyspark.sql.dataframes中的两列中创建一个pyspark.sql.dataframe

时间:2016-11-16 06:45:04

标签: pyspark pyspark-sql apache-spark-2.0

假设pyspark中的以下两个Dataframe具有相同的行数:
DF1:
| _ Column1a
| _ Column1b

DF2:
| _ Column2a
| _ Column2b

我希望创建一个新的DataFrame" df"它只有Column1a和Column 2a。什么是最好的解决方案?

1 个答案:

答案 0 :(得分:0)

Denny Lee的回答就是这样 它涉及在两个DataFrame上创建另一列,即每行的 Unique_Row_ID 。然后,我们在 Unique_Row_ID 上执行连接。然后根据需要删除 Unique_Row_ID