MapR流消费者中的spark.kafka.poll.time

时间:2016-10-25 23:09:26

标签: spark-streaming kafka-consumer-api

我正在使用MapR流并在我的直接kafka API使用者中设置参数“spark.kafka.poll.time”;但是,我不确切知道这个参数的含义是什么?

1 个答案:

答案 0 :(得分:0)

根据MapR文档,是MapR Streams上消费者的查询间隔时间(http://maprdocs.mapr.com/home/Spark/Spark_IntegrateMapRStreams_Consume.html)。大多数情况下,只有在使用Spark Streaming连接到Kafka时才需要指定它。在标准的Java Kafka Consumer中,在poll方法中,有一个以毫秒为单位的间隔,你必须指定它,所以在它们之间可以有一个类比。

对于Java:

ConsumerRecords<String, String> records = kafkaConsumer.poll(consumerPoolTime);

对于Spark Streaming as Map params:

"spark.kafka.poll.time" -> "300",
// other params

KafkaUtils.createDirectStream[String, String](ssc, kafkaParams, topics)