应用错误收集

时间：2016-05-04 17:51:06

标签： amazon-s3 apache-kafka offset apache-storm batching

使用案例

使用Apache Storm将Kafka消息保存到S3

到目前为止

故事

我尝试使用secor（https://github.com/pinterest/secor），工作正常，达到目的。但是，根据经理（他们说的总是正确的），维护过度可能太多了。
我们已经安装了Apache Kafka-Apache Storm稳定集群，因此计划利用该基础设施。

议程和问题

答案 0 :(得分：0)

Kafka spout已经在zookeeper中跟踪主题偏移，所以你不需要在bolt中实现这个逻辑。

Kafka spout将发出元组，拓扑将跟踪它。当元组通过螺栓拧紧时，它就通过了。 Spout会考虑传递元组。在发送元组spout后面会跟踪zookeeper中的当前偏移量，所以如果出现问题，你可以开始读取消息而不是从beggining开始。

上述拓扑将保证至少提供一次。使用三叉戟拓扑，您可以保证只提供一次。在这两种情况下，请查看topology.max.spout.pending设置。设置正确是至关重要的，因为你要使用批处理。

答案 1 :(得分：0)

将KafkaSpout配置为org.apache.storm.kafka.StringMessageAndMetadataScheme，这会将偏移和分区添加到Spouts发出的值