我试图使用spark sql递归查询分层数据集并识别所有嵌套子代的父根。
我尝试过使用自我加入,但它仅适用于1级。
任何想法或指示?
由于
答案 0 :(得分:3)
您可以使用基于Graphx的解决方案来执行递归查询(父/子或分层查询)。这是许多数据库提供的功能,称为递归公用表表达式(CTE)或通过SQL子句连接
有关详细信息,请参阅此文章:https://www.qubole.com/blog/processing-hierarchical-data-using-spark-graphx-pregel-api/