我正在使用Logstash和 cloudwatch_logs 插件将经过过滤的事件子集从一个CloudWatch日志流中迁移,并使用了一年的Open edX数据到ElasticSearch中进行分析。
日志流中可能有200k +条目,大约30k左右应该通过过滤器并进入ES。我正在使用2018年3月1日的start_position的整数秒值(35102038)。
input {
cloudwatch_logs {
log_group => [ "/my/log/tracking" ]
access_key_id => "(some key)"
secret_access_key => "(some secret)"
region => "us-west-1"
codec => "json"
start_position => 35102038
}
}
日志中每天至少有十个左右的事件应通过过滤器。
一切正常,直到出现一个随机点,Logstash突然跳到将来的日期,跳过了一个月或两个月的数据。
我尝试删除索引,删除.since_db并重新运行导入,但是每次插件以某种方式跳过起始位置和当前时间之间某个地方(不在同一位置)的较大时间段时。
我注销通过过滤器的每个事件的时间,因此在上一次运行时,我看到了类似的内容:
(...lots of log messages ... )
Found PYSJ SP Event
Event time: 2019-02-14T19:21:40.749596+00:00
Found PYSJ SP Event
Event time: 2019-02-14T19:21:41.095490+00:00
Found PYSJ SP Event
Event time: 2019-04-11T04:59:57.224356+00:00
Found PYSJ SP Event
Event time: 2019-04-11T01:14:25.953122+00:00
(...lots of log messages ..)
关于可能出什么问题的任何想法?谢谢。