如何在pyspark RDD中跟踪树?

时间:2018-09-07 00:51:14

标签: apache-spark pyspark

问题陈述

此处提到了示例和预期结果。用3列描述树(树的深度是动态的),并且在列中存在关系。 需要通过pyspark RDD中的键将它们循环成一行。任何想法将不胜感激?谢谢。

示例RDD:

(null,a1,null)
(null,a2,a1)
(null,a3,a2)
(null,a4,a3)
(b1,null,a4)

预期结果

b1->a4->a3->a2->a1, result RDD: (b1,(a4,a3,a2,a1))

0 个答案:

没有答案