标签: apache-spark pyspark
问题陈述
此处提到了示例和预期结果。用3列描述树(树的深度是动态的),并且在列中存在关系。 需要通过pyspark RDD中的键将它们循环成一行。任何想法将不胜感激?谢谢。
pyspark RDD
示例RDD:
(null,a1,null) (null,a2,a1) (null,a3,a2) (null,a4,a3) (b1,null,a4)
预期结果
b1->a4->a3->a2->a1, result RDD: (b1,(a4,a3,a2,a1))