如何从Kafka读取所有记录(从开始到开始)然后停止StreamingContext?

时间:2017-04-14 14:38:20

标签: apache-spark apache-kafka spark-streaming

如何使用Spark Streaming for Java API实现以下功能?

  1. 读取kafka日志压缩主题的所有消息(我使用它来存储所有用户配置文件数据)每条消息都是单个用户的配置文件数据。
  2. 一旦消耗了所有数据,就不要等待下一个数据进入kafka管道并停止流式传输。
  3. 我很新兴引发流式传输api,我不知道如何让火花流式上下文停止等待更多的消息来及未来的数据。

1 个答案:

答案 0 :(得分:0)

然后您应该使用KafkaUtils.createRDD

  

使用每个主题和分区的偏移范围从Kafka创建RDD。这允许您指定要连接的Kafka领导者(以优化提取)并访问消息以及元数据。

这将根据offsetRanges提取所有记录。