Question

我是Storm / Kafka的新手。我已经能够配置一个基本的工作原型：

我能够生成消息并从风暴拓扑中消耗它们。

我有一个关于kafka抵消持续存在的问题。

最初，当使用kafka实用程序时，我无法找到java客户端中使用的组。

经过一番搜索后，我读到了风暴卡夫卡在动物园管理员处存放这个偏移量。如果我在storm-kafka中进行配置：

然后我可以使用zookeeper zkCli.sh脚本检索偏移量。

get /my_root/my_group/partition_0
==> "topology":{},"offset":3148,..., "topic":"rawdatas"

我的问题是我不明白这种偏移的更新方式和频率。在暴风雨中，我肯定会处理每一个元组。

当拓扑开始，并且元组开始被处理时，我可以在Zookeeper中看到一点偏移（例如：几十个）然后偏移量不会长时间移动。

有一段时间，我可以看到一个更大的跳跃（例如几千），但它似乎是随机的。关于默认的kafka配置，我知道偏移应该每2秒更新一次

// setting for how often to save the current kafka offset to ZooKeeper
public long stateUpdateIntervalMs = 2000;

我错过了什么吗？

弗兰克

Answer 1

在kafka-spout代码中潜水后，我更了解我的问题。

像往常一样，一切都是配置问题

在我的示例拓扑中，我有一个kafka-spout，它将一个元组发送到一个简单的单线螺栓上，这个螺栓可以进行强烈的计算＆＃34;我们可以用一个简单的Thread.sleep（1000）来模拟

Storm有一个限制，即在拓扑中可以释放多少个元组（默认为512）喷口喷口和元组的最终确认之间也有一个超时，默认为30秒。

我认为重要的是：

在我的情况下，我只需调整maxSpoutPending和MessageTimeOutSet以在拓扑中获得良好的流动

StormTopology topology = builder.createTopology();
conf.setMaxSpoutPending(50);
conf.setMessageTimeoutSecs(120);

弗兰克