在Pyspark中将Pipelined RDD转换为Dataframe

时间:2018-05-02 09:38:48

标签: apache-spark pyspark spark-dataframe rdd

这是我的流水线RDD的外观:

[([3.0, 12.0, 8.0, 49.0, 27.0], 7968.0),
 ([165.0, 140.0, 348.0, 615.0, 311.0], 165.0)]

我想将其转换为数据帧。我尝试将第一个元素(在方括号中)转换为RDD,将第二个元素转换为RDD,然后将它们单独转换为数据帧。我也试过设置一个架构并转换它但它没有用。有人可以帮忙吗?

谢谢!

1 个答案:

答案 0 :(得分:0)

在转换为DataFrame

之前,您需要展平您的RDD
df=rdd.map(lambda (x,y): x+[y]).toDF()

您可以指定schema的{​​{1}}参数以获取有意义的列名称和/或类型。