限制Kafka在火花流中消耗数据

时间:2018-02-06 12:03:32

标签: apache-kafka spark-streaming kafka-consumer-api

我正在研究火花流项目。 Spark从kafka获取数据。我想通过spark-streaming限制记录消耗。关于kafka的数据非常庞大。我使用spark.streaming.kafka.maxRatePerPartition=1属性来限制spark中的记录。但仍然在5分钟批处理我收到13400条消息。我的火花程序每5分钟无法处理超过1000条消息。 Kafka主题有3个分区。我的火花驱动器内存为5GB,有3个执行器,每个3GB。我如何限制kafka在火花流中的消息消耗。

1 个答案:

答案 0 :(得分:1)

你试过设置下面的道具吗?

c= [a(~ismember(a,b,'rows'),:);b(~ismember(b,a,'rows'),:)]