标签: apache-spark spark-streaming
我有一个输入流数据偏斜的用例,每批数据量可以从0个事件到50,000个事件。每个数据条目都独立于其他数据。因此,为了避免重新分区造成的混乱,我想根据批量大小使用某种动态重新分区。我无法使用dstream计数获得批量的大小。
我的用例非常简单我有未知数量的数据进入Spark stereaming进程,我想并行处理并保存到文本文件。我想并行运行这些数据,因此我使用引入了shuffle的重新分区。我希望避免因重新分配而进行洗牌。
我想了解在火花流中解决数据偏斜应用的推荐方法。