使用Kafka的Spark Streaming - 并非收到所有Kafka消息

时间:2018-04-08 20:54:56

标签: apache-spark apache-kafka spark-streaming kafka-consumer-api hdinsight

我正在与Kafka一起使用Spark Streaming,这是第一次遇到以下问题:

我正在使用基于接收器的方法将Kafka与Spark Streaming集成为:

val kafkaConf = Map("metadata.broker.list" -> "ip1:9042,ip2:9042", "group.id" -> "raw-email-event-streaming-consumer", "zookeeper.connect" -> "ip1:2181,ip2:2181")

`val kafkaStream = KafkaUtils.createStream[Array[Byte], String, DefaultDecoder, StringDecoder](ssc, kafkaConf, Map(RN_MAIL_TOPIC -> RN_MAIL_TOPIC_PARTITIONS), StorageLevel.MEMORY_ONLY_SER)`

我发现在Spark Streaming作业中没有收到来自Kafka主题的大量消息(未收到7k消息中的~5k消息)。请提供有关为何可能发生这种情况的见解。我目前以独立模式将流媒体作业提交到Azure HDInsights集群,如下所示:

spark-submit --class <class_name> --master local[*] --deploy-mode client <executable>.jar

0 个答案:

没有答案