正则表达式用于匹配重复k / v对以及logstash

时间:2017-03-16 16:24:49

标签: regex logstash-grok regex-greedy

我需要写一些有点超出我头脑的正则表达式。这里的目标是在logstash过滤器中解析以下类型的日志行:

severity=I time=2017-02-23T10:04:31Z [SKYLIGHT] [0.5.1] Unable to start
severity=I time=2017-02-23T10:04:31Z adapter=redis adapter_host=1.1.1.1 Cache read: /model/reference/6235290d29a17a935f4d3d72d2e0a903750dd54b
severity=I time=2017-02-23T10:04:31Z remote_ip=1.1.1.1 uuid=daa8090d method=GET path=/somepath.json format=json controller=app action=index status=200 duration=30.47 view=10.04
severity=D time=2017-02-23T10:04:31Z remote_ip=1.1.1.1 uuid=daa8090d SOLR Request (18.3ms) [path=/admin/luke parameters={numTerms: 0}]

本质上,输出格式是一组任意k = v对,后面是偶然的“原始消息”。只使用logstash k / v过滤器直接产生不希望的行为,因为尾随的“消息”可以嵌套在其中的k = v格式 - 例如上面最后一行中的path = / admin / luke。我的工作计划是将日志捕获为两部分,k / v对作为字符串,以及尾随消息,此时可以将k / v字符串发送到正常的logstash kv过滤器。因此,例如,最终的日志行将产生两组:

severity=D time=2017-02-23T10:04:31Z remote_ip=1.1.1.1 uuid=daa8090d

SOLR Request (18.3ms) [path=/admin/luke parameters={numTerms: 0}]

日志文档的最终目标是:

[
    {
        "severity": "I",
        "time": "2017-02-23T10:04:31Z",
        "message": "[SKYLIGHT] [0.5.1] Unable to start"
    },
    {
        "severity": "I",
        "time": "2017-02-23T10:04:31Z"
        "adapter": "redis",
        "adapter_host": "1.1.1.1",
        "message": "Cache read: /model/reference/6235290d29a17a935f4d3d72d2e0a903750dd54b"
    },
    {
        "severity": "I",
        "time": "2017-02-23T10:04:31Z",
        "message": "[SKYLIGHT] [0.5.1] Unable to start"
    },
    {
        "severity": "I",
        "time": "2017-02-23T10:04:31Z",
        "remote_ip": "1.1.1.1",
        "uuid": "daa8090d",
        "method": "GET",
        "path": "/somepath.json",
        "format": "json",
        "controller": "app",
        "action": "index",
        "status": "200",
        "duration": "30.47",
        "view": "10.04"
    },
    {
        "severity": "D",
        "time": "2017-02-23T10:04:31Z",
        "remote_ip": "1.1.1.1",
        "uuid": "daa8090d",
        "message": "SOLR Request (18.3ms) [path=/admin/luke parameters={numTerms: 0}]"
    }
]

谢谢!

1 个答案:

答案 0 :(得分:1)

对于每一行,请使用以下正则表达式:

(?:([^ =]+)=([^ =]+) ?)|(.+)

说明:

  • (?: - “外部”,非捕获组(xxxx=yyyy)。
  • ([^ =]+) - 第一个捕获组(xxxx)。
  • = - 等号(xxxxyyyy之间)。
  • ([^ =]+) - 第二个捕获组(yyyy)。
  • ? - 一个空格(可能会出现)。
  • ) - “外部”组的结束。
  • | - 变体之间的分隔符。
  • (.+) - 第二个变体 - 第三个捕获组,任何非空的字符序列。

请注意,正则表达式处理器最初尝试第一个变体(|之前), 捕获xxxx=yyyy对。

然后,如果第一个变体失败(在所有xxxx=yyyy对之后), 尝试了第二个变体,捕获消息(如果有的话)。

我使用在线验证程序(regex101.com)为每个输入行尝试了此正则表达式。

E.g。为最后一排 (severity=D time=2017-02-23T10:04:31Z remote_ip=1.1.1.1 uuid=daa8090d SOLR Request (18.3ms) [path=/admin/luke parameters={numTerms: 0}) 我得到了以下结果:

Match 1
Full match  0-11    `severity=D `
Group 1.    0-8     `severity`
Group 2.    9-10    `D`

Match 2
Full match  11-37   `time=2017-02-23T10:04:31Z `
Group 1.    11-15   `time`
Group 2.    16-36   `2017-02-23T10:04:31Z`

Match 3
Full match  37-55   `remote_ip=1.1.1.1 `
Group 1.    37-46   `remote_ip`
Group 2.    47-54   `1.1.1.1`

Match 4
Full match  55-69   `uuid=daa8090d `
Group 1.    55-59   `uuid`
Group 2.    60-68   `daa8090d`

Match 5
Full match  69-133  `SOLR Request (18.3ms) [path=/admin/luke parameters={numTerms: 0}`
Group 3.    69-133  `SOLR Request (18.3ms) [path=/admin/luke parameters={numTerms: 0}`

请注意,如果匹配1到4,则找到组1和组。

但是在最后一场比赛中,第3组被发现了。

因此,处理每场比赛,你必须检查:

  • 如果组1不为空,则组2也不为空 它们包含kv

  • 否则,第3组会保留邮件的内容。