如何从其他两个数据框创建一个数据框?

时间:2019-06-19 22:05:59

标签: apache-spark dataframe pyspark

我有这两个dataframe对象,每个对象都有一个列:

a = predictons_lr.select('prediction')
b = predictions_nb.select('prediction')

我想创建一个包含ab作为列的单个结果数据框。 我尝试过:

df_result = spark.createDataFrame([a, b])

但我收到此错误:

  

AssertionError:位于0x000002260F3D4240的dataType py4j.java_gateway.JavaMember对象应该是“ pyspark.sql.types.DataType”类的实例

有没有一种有效的方法来创建这种数据框?

1 个答案:

答案 0 :(得分:1)

如果这两列是相同的数据类型,则只需合并即可

a = predictons_lr.select('prediction')
b = predictions_nb.select('prediction')

new_df = a.union(b)