标签: apache-spark
我处理具有树结构的数据
id | parent_id | --- + --------- + 11 | 1 | 12 | 1 | 121 | 12 |
现在我必须读取表,按id分组并求和一个bigint类型的列值。最重要的事实是只有叶子-没有子元素的元素才具有指定的值,并且每个父元素都必须是其所有子元素值的总和。最初,所有父母的值都等于null或0。 根