我正在使用MapR流并在我的直接kafka API使用者中设置参数“spark.kafka.poll.time”;但是,我不确切知道这个参数的含义是什么?
答案 0 :(得分:0)
根据MapR文档,是MapR Streams上消费者的查询间隔时间(http://maprdocs.mapr.com/home/Spark/Spark_IntegrateMapRStreams_Consume.html)。大多数情况下,只有在使用Spark Streaming连接到Kafka时才需要指定它。在标准的Java Kafka Consumer中,在poll方法中,有一个以毫秒为单位的间隔,你必须指定它,所以在它们之间可以有一个类比。
对于Java:
ConsumerRecords<String, String> records = kafkaConsumer.poll(consumerPoolTime);
对于Spark Streaming as Map params:
"spark.kafka.poll.time" -> "300",
// other params
KafkaUtils.createDirectStream[String, String](ssc, kafkaParams, topics)