Question

我正在研究火花流项目。 Spark从kafka获取数据。我想通过spark-streaming限制记录消耗。关于kafka的数据非常庞大。我使用spark.streaming.kafka.maxRatePerPartition=1属性来限制spark中的记录。但仍然在5分钟批处理我收到13400条消息。我的火花程序每5分钟无法处理超过1000条消息。 Kafka主题有3个分区。我的火花驱动器内存为5GB，有3个执行器，每个3GB。我如何限制kafka在火花流中的消息消耗。

Answer 1

你试过设置下面的道具吗？

c= [a(~ismember(a,b,'rows'),:);b(~ismember(b,a,'rows'),:)]

限制Kafka在火花流中消耗数据

1 个答案: