应用错误收集

在PySpark的两个不同的pyspark.sql.dataframes中的两列中创建一个pyspark.sql.dataframe

时间：2016-11-16 06:45:04

标签： pyspark pyspark-sql apache-spark-2.0

假设pyspark中的以下两个Dataframe具有相同的行数：
DF1：
| _ Column1a
| _ Column1b

DF2：
| _ Column2a
| _ Column2b

我希望创建一个新的DataFrame＆＃34; df＆＃34;它只有Column1a和Column 2a。什么是最好的解决方案？

1 个答案:

答案 0 :(得分：0)

Denny Lee的回答就是这样它涉及在两个DataFrame上创建另一列，即每行的 Unique_Row_ID 。然后，我们在 Unique_Row_ID 上执行连接。然后根据需要删除 Unique_Row_ID 。