使用Kafka + Spark Streaming恰好一次

时间:2019-03-21 16:34:33

标签: apache-spark apache-kafka spark-streaming spark-streaming-kafka

是否可以通过在Spark Streaming应用程序中处理Kafka主题来一次实现准确的目标?

要完全实现一次,您需要满足以下条件:

  1. 对Kafka经纪人来说,恰恰是一次在Kafka生产者身上。这是由卡夫卡的0.11幂等生产商实现的。 但是Kafka 0.11到Spark Streaming集成产品准备好了吗?我发现this JIRA ticket with lots of bugs.
  2. 在Kafka经纪人上仅一次访问Spark Streaming应用。 能否实现?由于Spark Streaming应用程序故障,该应用程序可以两次读取某些数据,对吗?作为解决方案,我可以将计算结果和最后处理的事件uuid持久保存到Redis transactionaly吗?
  3. 通过Spark Streaming应用对数据进行转换一次。这是RDD的开箱即用属性。
  4. 持久性结果上仅一次。通过事务持久化Redis的最后一个事件uuid在第二条语句上解决。

0 个答案:

没有答案