我正在研究火花流项目。 Spark从kafka获取数据。我想通过spark-streaming限制记录消耗。关于kafka的数据非常庞大。我使用spark.streaming.kafka.maxRatePerPartition=1
属性来限制spark中的记录。但仍然在5分钟批处理我收到13400条消息。我的火花程序每5分钟无法处理超过1000条消息。 Kafka主题有3个分区。我的火花驱动器内存为5GB,有3个执行器,每个3GB。我如何限制kafka在火花流中的消息消耗。
答案 0 :(得分:1)
你试过设置下面的道具吗?
c= [a(~ismember(a,b,'rows'),:);b(~ismember(b,a,'rows'),:)]