这是我的流水线RDD的外观:
[([3.0, 12.0, 8.0, 49.0, 27.0], 7968.0),
([165.0, 140.0, 348.0, 615.0, 311.0], 165.0)]
我想将其转换为数据帧。我尝试将第一个元素(在方括号中)转换为RDD,将第二个元素转换为RDD,然后将它们单独转换为数据帧。我也试过设置一个架构并转换它但它没有用。有人可以帮忙吗?
谢谢!
答案 0 :(得分:0)
在转换为DataFrame
:
df=rdd.map(lambda (x,y): x+[y]).toDF()
您可以指定schema
的{{1}}参数以获取有意义的列名称和/或类型。