我正在尝试控制KStream消耗的消息数量,而且我不是很成功。
我正在使用:
max.poll.interval.ms=100
和
max.poll.records=20
每秒获得200条消息。
但它似乎不太好,因为我发现在我的统计数据中每秒也有500条消息。
我还应该在流消费者方面设置什么?
答案 0 :(得分:5)
我正在使用:max.poll.interval.ms = 100和max.poll.records = 20来获取 每秒200条消息。
max.poll.interval.ms和max.poll.records属性不能以这种方式工作。
max.poll.interval.ms 表示消费者必须在主题的每次消费者调查之间等待的最长时间间隔(以毫秒为单位)。
max.poll.records 表示消费者在每次消费者调查主题期间可以使用的最大记录数。
每次轮询之间的间隔不受上述两个属性的控制,而是由消费者确认获取的记录所花费的时间。
例如,假设主题X存在,其中包含1000条记录,并且消费者确认所提取记录所花费的时间是20毫秒。使用max.poll.interval.ms = 100和max.poll.records = 20,消费者将每20ms轮询Kafka主题,并且在每次轮询中,将获取最多20个记录。如果确认获取的记录所花费的时间大于max.poll.interval.ms,则轮询将被视为失败,并且该特定批次将再次从Kafka主题重新轮询。
答案 1 :(得分:2)
KafkaConsumer(也是KafkaStreams
内部使用的那个读取记录尽可能快。
您提到的参数会对性能产生影响,但您无法控制实际数据速率。另请注意,max.poll.records
仅配置有多少记录poll()
返回,但它对客户端代理通信没有影响。 KafkaConsumer
在与代理交谈时可以获取更多记录,然后只要记录在缓冲区中就返回poll()
上的缓冲消息(即,对于这种情况,poll()
是客户端只能确保您不会通过max.poll.interval.ms
超时的运营商。因此,您可能对fetch.max.bytes
更感兴趣,它确定从代理获取的字节大小。如果减少此参数,则消费者效率较低,因此吞吐量应降低。 (虽然不推荐)。
配置吞吐量的另一种方法是配额(https://kafka.apache.org/documentation/#design_quotas)它是一个代理端配置,允许您限制客户端可以读取和/或写入的数据量。
在Kafka Streams中做的最好的事情(以及使用简单的KafkaConsumer时)是手动限制对poll()
的调用。对于Kafka Streams,您可以在任何UDF中添加Thread.sleep()
。如果您不想将其搭载到现有的运算符中,您只需添加一个具有短暂状态的foreach()
(即类成员变量)来跟踪吞吐量并计算您需要睡到多少相应地限制吞吐量。
答案 2 :(得分:1)
你可以在消费者方面使用类似akka-stream-kafka(又名reactive-kafka)的东西。 akka-streams具有很好的限制功能,在这里会派上用场:
http://doc.akka.io/docs/akka/snapshot/java/stream/stream-quickstart.html#time-based-processing