我正在尝试使用PySpark,
通过以下方式创建数据框:
lr_col = predictions_lr.select('prediction_1')
nb_col = predictions_nb.select('prediction_2')
df = spark.createDataFrame([lr_col, nb_col])
但是,当我运行上面的代码时,出现此错误:
AssertionError:位于0x00000237C7D2B550的dataType py4j.java_gateway.JavaMember对象应该是“ pyspark.sql.types.DataType”类的实例
如何将数据转换为请求的数据类型?
答案 0 :(得分:1)
您为两个DataFrame中的每个预测添加一个uid,然后在此id
上简单地内部联接两个DataFrame。
predictions_lr.join(predictions_nb, 'id')