标签: apache-spark apache-spark-sql
我有一个用例,我希望所有连接的数据(对于单个用户)都在同一节点上。
从https://github.com/twosigma/flint起,我知道可以进行自定义的内存布局,但是需要付出很多努力。另一方面,collect_list与sort_array的{{1}}组合起来非常方便,但是在数据偏斜的情况下是个问题。
collect_list
sort_array
两者之间是否存在一些可以控制更多但数据偏斜问题更少的东西?我知道窗口函数可以强制执行某些排序,但这会导致随机播放大得多。