标签: apache-kafka spark-streaming
我正在运行Spark Streaming作业(意味着数据不断被推送到kafka主题并且不断被Spark消费者读取)。输入数据的我的Kafka主题的保留时间设置为60000(1分钟)。但是,输入主题在1分钟后不会清除消息。如果没有新的数据添加到主题,则需要大约1到26分钟才能清除。
如果我连续两次添加数据,我会期望将一半的旧数据清除,因为retain.ms设置为1分钟。但我只看到双重数据。
有没有人见过类似的模式。我该如何解决这个问题?你需要更多细节吗?
答案 0 :(得分:0)
您需要设置属性log.retention.check.interval.ms以设置日志清理程序检查是否有任何日志符合删除条件的频率(以毫秒为单位)。