Logstash grok过滤器自定义模式不起作用

时间:2017-04-11 17:08:10

标签: regex logstash elastic-stack logstash-grok

我有一个日志文件(http://codepad.org/vAMFhhR2),我想从中提取一个特定的数字(第18行) 我写了一个自定义模式grok过滤器,在http://grokdebug.herokuapp.com/上测试它,它工作正常并提取我想要的值。

这里是logstash.conf的样子:

input {
    tcp {
        port => 5000
    }
}

filter {
    grok{
         match => [ "message", "(?<scraped>(?<='item_scraped_count': ).*(?=,))" ]
    }
}

output {
    elasticsearch {
        hosts => "elasticsearch:9200"
    }
}

但它与Kibana上相同日志中的任何记录都不匹配

思想?

1 个答案:

答案 0 :(得分:0)

你的正则表达式可能有效但前瞻和后瞻(“?=”和“?&lt; =”)在这种情况下不是一个好的选择。相反,你可以使用更简单的过滤器:

match => [ "message", "'item_scraped_count': %{NUMBER:scraped}" ]

这将使用“NUMBER”Grok built-in pattern'item_scraped_count':后的数字提取为名为scraped的字段。

Kibana的结果:

{
  "_index": "logstash-2017.04.11",
  "_type": "logs",
  "_source": {
    "@timestamp": "2017-04-11T20:02:13.194Z",
    "scraped": "22",
    (...)
  }
}

如果我可以建议另一项改进:由于您的邮件分布在多行中,您可以使用multiline输入编解码器轻松合并:

input {
    tcp {
        port => 5000
        codec => multiline {
            pattern => "^(\s|{')"
            what => "previous"
        }
    }
}

这将合并所有以空格开头的行或{'与前一行。