忽略旧文件,并使用logstash仅推送来自S3的最新日志文件

时间:2019-10-04 17:44:02

标签: elasticsearch logging amazon-s3 logstash amazon-cloudtrail

如何使用logstash忽略旧文件并仅从S3推送最新的日志文件。我们正在使用logstash将cloudtaril日志从s3推送到elasticsearch。 Cloudtrail日志采用以下格式

/AWSLogs/CloudTrail/xxxAccount Numberxxxx/aws-region/year(YYYY)/Month(MM)/day(DD)/

我只需要提取最新的数据(例如本月的数据),因为整个存储桶中都有巨大的terrabytes数据,logstash无法扩展那么多数据。有办法吗?

2 个答案:

答案 0 :(得分:1)

我只是遇到了同样的问题,并解决了这个问题(阅读:解决了这个问题),

使用常规配置启动logstash会导致您描述的行为。

启动时,它将在其日志中告诉您的sincedb文件所在的位置。 (默认值为logstash-7.8.0 / data / plugins / inputs / s3 / sincedb_ someid )。

创建文件需要一段时间。创建文件后,再次停止logstash。

现在,我想,您可以删除刚刚导入的数据,但我不在乎。

现在编辑文件。这只是一个UTC时间戳。调整到现在为止。

再次启动logstash,它将开始处理在您刚刚输入的时间戳之后创建的文件。

答案 1 :(得分:0)

您可以在处理完日志后将其移至其他文件夹。这样可以避免您第二次处理它们,也可以使处理速度更快(我们发现s3 / logstash在使用较大的文件夹时会非常慢)。

请参见backup_to_bucket选项。