Question

我了解Logstash用于聚集和处理日志。我有NGIX日志，并且Logstash配置设置为：

filter {
 grok {
   match => [ "message" , "%{COMBINEDAPACHELOG}+%{GREEDYDATA:extra_fields}"]
   overwrite => [ "message" ]
 }
 mutate {
   convert => ["response", "integer"]
   convert => ["bytes", "integer"]
   convert => ["responsetime", "float"]
 }
 geoip {
   source => "clientip"
   target => "geoip"
   add_tag => [ "nginx-geoip" ]
 }
 date {
   match => [ "timestamp" , "dd/MMM/YYYY:HH:mm:ss Z" ]
   remove_field => [ "timestamp" ]
 }
 useragent {
   source => "agent"
 }
}

output {
 elasticsearch {
   hosts => ["localhost:9200"]
   index => "weblogs-%{+YYYY.MM}"
   document_type => "nginx_logs"
 }
 stdout { codec => rubydebug }
}

这会将非结构化日志解析为结构化的数据形式，并将数据存储到每月索引中。

我发现，大多数日志是由机器人/网络爬虫贡献的。在python中，我可以通过以下方式将其过滤掉：

browser_names = browser_names[~browser_names.str.\
                              match('^[\w\W]*(google|bot|spider|crawl|headless)[\w\W]*$', na=False)]

但是，我想用Logstash过滤掉它们，以便可以在Elasticsearch服务器中节省很多磁盘空间。有没有办法做到这一点？预先感谢！

Answer 1

在过滤器中，您可以要求放置（https://www.elastic.co/guide/en/logstash/current/plugins-filters-drop.html）。既然已经有了模式，应该很快；）

Answer 2

感谢LeBigCat慷慨地给出了提示。我通过在过滤器下面添加以下内容解决了这个问题：

 if [browser_names] =~ /(?i)^[\w\W]*(google|bot|spider|crawl|headless)[\w\W]*$/ {
   drop {}
 }

（？i）标志用于不区分大小写的匹配。

在Elasticsearch中存储解析数据之前，如何使用Logstash过滤数据

2 个答案: