我是Stack Overflow的新人。我正在为我遇到的问题寻求帮助。谢谢你。
我最近正在开发一个火花流应用程序。这些基本信息:
因为kafka集群可能已经存在并且可能包含大量数据。所以我将配置添加到spark conf中,如下所示:
使用配置我成功限制了火花司机首次启动时的消耗速度。最大事件大小为6000 * 10 * 10 = 600000。
然后我遇到了我的问题。看图片。
我没有足够的声誉上传图片所以我会描述它。
批量时间 输入尺寸
2017/04/19 18:08:20 100个活动
2017/04/19 18:08:10 100个活动
2017/04/19 18:08:00 60000活动
...
2017/04/19 18:07:20 60000活动
2017/04/19 18:07:10 60000活动
消耗速度从600000突然减慢到100.我尝试了几次,结果相同。重新启动时,消耗速度为600000,经过近10批次,速度突然降至100。
我尝试减少maxRatePerPartition数量,但它仍然会逐渐减慢,例如从30000到2650,最后是100.并且没有警告或错误日志出来。我很困惑。
我在网上搜索了很长时间。但没用。请帮助或尝试提供一些如何实现这一点的想法。谢谢。