调整Spark中数据的内存表示形式(数据局部性)

时间:2019-04-03 19:48:56

标签: apache-spark apache-spark-sql

我有一个用例,我希望所有连接的数据(对于单个用户)都在同一节点上。

https://github.com/twosigma/flint起,我知道可以进行自定义的内存布局,但是需要付出很多努力。另一方面,collect_listsort_array的{​​{1}}组合起来非常方便,但是在数据偏斜的情况下是个问题。

两者之间是否存在一些可以控制更多但数据偏斜问题更少的东西?我知道窗口函数可以强制执行某些排序,但这会导致随机播放大得多。

0 个答案:

没有答案