Google DataFlow:从Kafka中读取并保存到GCS-如何保证一次匹配?

时间:2018-08-21 12:59:58

标签: apache-kafka google-cloud-dataflow

我将创建Cloud Dataflow管道(使用Apache Beam),该管道假设了以下步骤:

  1. 从Kafka阅读消息
  2. 处理邮件
  3. 将处理后的消息写入Google Cloud Storage

仅当消息成功存储在GCS中时,我才想向offset提交Kafka,即对该流实施一次精确的语义。

我该怎么做,KafkaIO中是否有现成的支持。至少有可能手动管理偏移量吗?

2 个答案:

答案 0 :(得分:0)

有一个https://docs.confluent.io/current/connect/kafka-connect-gcs/gcs_connector.html的Kafka Connect插件

如果您不想使用Kafka Connect,则该插件的源代码已打开,您可以看到一次实现的精确度。但是,我建议您尝试使用Connect。非常简单。

答案 1 :(得分:0)

Did we find any thing here. I am also looking to create a apache beam job which reads data from kafka and writes to GCS . I want to commit checkpoint(offset) after the upload is succ