Logstash + cloudwatch_logs:在导入期间跳过数月的数据

时间:2019-04-12 01:42:34

标签: logstash

我正在使用Logstash和 cloudwatch_logs 插件将经过过滤的事件子集从一个CloudWatch日志流中迁移,并使用了一年的Open edX数据到ElasticSearch中进行分析。

日志流中可能有200k +条目,大约30k左右应该通过过滤器并进入ES。我正在使用2018年3月1日的start_position的整数秒值(35102038)。

input {
   cloudwatch_logs {
        log_group => [ "/my/log/tracking" ]
        access_key_id => "(some key)"
        secret_access_key => "(some secret)"
        region => "us-west-1"
        codec => "json"
        start_position => 35102038
    }
}

日志中每天至少有十个左右的事件应通过过滤器。

一切正常,直到出现一个随机点,Logstash突然跳到将来的日期,跳过了一个月或两个月的数据。

我尝试删除索引,删除.since_db并重新运行导入,但是每次插件以某种方式跳过起始位置和当前时间之间某个地方(不在同一位置)的较大时间段时。

我注销通过过滤器的每个事件的时间,因此在上一次运行时,我看到了类似的内容:

(...lots of log messages ... )

Found PYSJ SP Event
Event time: 2019-02-14T19:21:40.749596+00:00

Found PYSJ SP Event
Event time: 2019-02-14T19:21:41.095490+00:00

Found PYSJ SP Event
Event time: 2019-04-11T04:59:57.224356+00:00

Found PYSJ SP Event
Event time: 2019-04-11T01:14:25.953122+00:00

(...lots of log messages ..)

关于可能出什么问题的任何想法?谢谢。

0 个答案:

没有答案