应用错误收集

火花知道在kafka中添加了新分区吗？

时间：2018-10-29 14:37:55

标签： scala apache-kafka spark-streaming confluent

我们最近遇到了一个问题，其中一些Kafka分区丢失了，工作继续进行而没有失败。同时，添加了新的kafka分区。似乎我们的Spark Streaming作业没有重新启动，并且它没有从新分区接收任何数据，直到我们注意到计数之间的差异。我们重新开始了工作，一切都很好。所以我的问题是，spark-kafka流式API是否不时检查是否添加了新分区？有启用它的特殊设置吗？

1 个答案:

答案 0 :(得分：0)

AFAIK，当添加新主题/分区时，Spark的Kafka Consumer将不会自动重新平衡其消费者组。

这是将Spark Streaming与Kafka Streams进行比较时列出的好处之一，因为Kafka Streams将重新平衡

新的directStream API按顺序读取主题的分区。为什么？
Spark + Kafka集成 - 将Kafka分区映射到RDD分区
只有一个消费者获得包含5个分区的kafka消息
Kafka制作人没有选择新的分区
当新的Kafka经纪人添加并重新分配分区时，Spark直接流媒体作业能够自动重新分配其消费者
从Apache Kafka中添加的分区消费
将Dstream中的分区数量增加到大于Direct方法中的Kafka分区
支持机架的Kafka：重新分配不包括所有机架的分区
火花知道在kafka中添加了新分区吗？
如何在kafka主题中使用新添加的分区平衡消息

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？