应用错误收集

我有一个输入流数据偏斜的用例，每批数据量可以从0个事件到50,000个事件。每个数据条目都独立于其他数据。因此，为了避免重新分区造成的混乱，我想根据批量大小使用某种动态重新分区。我无法使用dstream计数获得批量的大小。

我的用例非常简单我有未知数量的数据进入Spark stereaming进程，我想并行处理并保存到文本文件。我想并行运行这些数据，因此我使用引入了shuffle的重新分区。我希望避免因重新分配而进行洗牌。

我想了解在火花流中解决数据偏斜应用的推荐方法。