在Spark Streaming上下文中使用时,Kafka Topic retention.ms无法正常工作

时间:2015-05-01 15:42:28

标签: apache-kafka spark-streaming

我正在运行Spark Streaming作业(意味着数据不断被推送到kafka主题并且不断被Spark消费者读取)。输入数据的我的Kafka主题的保留时间设置为60000(1分钟)。但是,输入主题在1分钟后不会清除消息。如果没有新的数据添加到主题,则需要大约1到26分钟才能清除。

如果我连续两次添加数据,我会期望将一半的旧数据清除,因为retain.ms设置为1分钟。但我只看到双重数据。

有没有人见过类似的模式。我该如何解决这个问题?你需要更多细节吗?

1 个答案:

答案 0 :(得分:0)

您需要设置属性log.retention.check.interval.ms以设置日志清理程序检查是否有任何日志符合删除条件的频率(以毫秒为单位)