我的fluenTd日志解析器有问题。当IP为2时,以下配置可以正常工作。
expression /^(?<client_ip>[^ ]*)(?:, (?<lb_ip>[^ ]*))? (?<ident>[^ ]*) (?<user>[^ ]*) \[(?<time>[^ ]* [^ ]*)\] "(?<method>\S+)(?: +(?<path>[^ ]*) (?<protocol>[A-Z]{1,}[^ ]*)+\S*)?" (?<code>[^ ]*) (?<size>[^ ]*)/
此匹配项:
148.165.41.129, 10.25.1.120 - - [09/Dec/2019:16:22:23 +0000] "GET /comet_request/44109669162/F1551019433002Y5MYEP?F155101943300742PMLG=1551019433877&_=1575904426457 HTTP/1.1" 200 0 0 0
当有3个IP时,我得到一个模式不匹配警告。
这不匹配:
176.30.235.70, 165.225.70.200, 10.25.1.120 - - [09/Dec/2019:13:30:57 +0000] \"GET /comet_request/71142769981/F1551018730440IY5YNF?F1551018721447ZVKYZ4=1551018733078&_=1575898029473 HTTP/1.1\" 200 0 0 0
我尝试了以下正则表达式,但不起作用。有人可以帮忙吗?
expression /^(?<client_ip>[^ ]*)(?:, (?<proxy_ip>[^ ]*))? (?:, (?<lb_ip>[^ ]*))? (?<ident>[^ ]*) (?<user>[^ ]*) \[(?<time>[^ ]* [^ ]*)\] "(?<method>\S+)(?: +(?<path>[^ ]*) (?<protocol>[A-Z]{1,}[^ ]*)+\S*)?" (?<code>[^ ]*) (?<size>[^ ]*)$/
答案 0 :(得分:1)
您需要使用更具体的模式来匹配IP,例如[\d.]+
或[^, ]+
,并确保您还匹配最后两个字段(您不匹配它们和$
要求在行/字符串的末尾。
使用类似的模式
^(?<client_ip>[^ ,]+)(?:, +(?<proxy_ip>[^ ,]+))?(?:, +(?<lb_ip>[^ ,]+))? (?<ident>[^ ]+) (?<user>[^ ]+) \[(?<time>[^\]\[ ]* [^\]\[ ]*)\] "(?<method>\S+)(?: +(?<path>\S+) (?<protocol>[A-Z][^" ]*)[^"]*)?" (?<code>\S+) (?<size>\S+) \S+ \S+$
请参见regex demo
IP匹配部分是^(?<client_ip>[^ ,]+)(?:, +(?<proxy_ip>[^ ,]+))?(?:, +(?<lb_ip>[^ ,]+))?
,请注意[^ ,]+
匹配1个以上的字符,而不是空格,并且,
和\S+ \S+
被添加到模式的末尾( (如果这些是数字,则可以使用\d+ \d+
并在需要时捕获它们)。
答案 1 :(得分:0)
示例字符串
让我们考虑一下您问题的缩写形式,重点介绍前四个命名范围(因为处理其余命名范围很简单)。
str1 = "148.165.41.129, 10.25.1.120 - - [09/Dec/2019:16:22:23 +0000]"
str2 = "176.30.235.70, 165.225.70.200, 10.25.1.120 - - [09/Dec/2019:13:30:57 +0000]"
以自由空间模式编写的正则表达式
如果字符串具有有效的结构,则以下正则表达式可用于提取命名范围的内容。请注意,它要求IPv4地址和日期时间字符串具有有效的模式(而不仅仅是[^ ]+
和[^ ]+ [^ ]+
)。我已经在 free-spacing 模式下编写了正则表达式,以使其具有自记录功能。
r = /
\A # match the beginning of the string
(?<client_ip> # begin a capture group named client_ip
\g<user_ip> # evaluate the subexpression (capture group) named user_ip
) # end capture group client_ip
(?: # begin a non-capture group
,[ ] # match the string ', '
(?<lb_ip> # begin a capture group named lb_ip
\g<user_ip> # evaluate the subexpression (capture group) named user_ip
) # end capture group lb_ip
)? # end non-capture group and optionally execute it
(?: # begin a non-capture group
,[ ] # match the string ', '
(?<user_ip> # begin a capture group named user_ip
\d{1,3} # match 1-3 digits
(?: # begin a non-capture group
\.\d{1,3} # match a period followed by 1-3 digits
){3} # end the non-capture group and execute 3 times
) # end capture group user_id
) # end non-capture group
[ ]-[ ]-[ ]\[ # match the string ' - - ['
(?<time> # begin a capture group named time
\d{2}\/\p{L}{3}\/\d{4}:\d{2}:\d{2}:\d{2}[ ]\+\d{4}
# match a time string
) # end capture group time
\] # match string ']'
\z # match end of string
/x # free-spacing regex definition mode
将字符串与正则表达式匹配
我们现在确认两个字符串与此正则表达式匹配,并提取捕获组的内容。
m1 = str1.match(r)
m1.named_captures
#=> {"client_ip"=>"148.165.41.129",
# "lb_ip"=>nil,
# "user_ip"=>"10.25.1.120",
# "time"=>"09/Dec/2019:16:22:23 +0000"}
m2 = str2.match(r)
m2.named_captures
#=> {"client_ip"=>"176.30.235.70",
# "lb_ip"=>"165.225.70.200",
# "user_ip"=>"10.25.1.120",
# "time"=>"09/Dec/2019:13:30:57 +0000"}
子表达式调用
我只使用了user_ip
,而不是为前两个命名的捕获组复制捕获组\g<user_ip>
的内容,实际上,它告诉正则表达式引擎评估其中的内容。在引用user_ip
的位置捕获组(子表达式)\g<user_ip>
。在Regexp的文档中搜索“子表达式调用”。
请注意,子表达式调用是前瞻性。假设我们改为这样写:
r = /
\A
(?<client_ip>\d{1,3}(?:\.\d{1,3}){3})
(?:,[ ](?<lb_ip>\g<client_ip>))?
(?:,[ ](?<user_ip>\g<client_ip>))
[ ]-[ ]-[ ]\[
(?<time>\d{2}\/\p{L}{3}\/\d{4}:\d{2}:\d{2}:\d{2}[ ]\+\d{4})
\]
\z
/x
然后
m1 = str1.match(r)
m1.named_captures
#=> {"client_ip"=>"10.25.1.120",
# "lb_ip"=>nil,
# "user_ip"=>"10.25.1.120",
# "time"=>"09/Dec/2019:16:22:23 +0000"}
m2 = str2.match(r)
m2.named_captures
#=> {"client_ip"=>"10.25.1.120",
# "lb_ip"=>"165.225.70.200",
# "user_ip"=>"10.25.1.120",
# "time"=>"09/Dec/2019:13:30:57 +0000"}
如图所示,捕获组client_ip
的内容设置为等于user_ip
的内容。 here对此行为的原因进行了解释(请查找“在PCRE中而不是Perl中,一个有趣的转折是……”以及该文档的其他引用的部分)。
常规编写的正则表达式
常规表达通常如下:
/\A(?<client_ip>\g<user_ip>)(?:, (?<lb_ip>\g<user_ip>))?(?:, (?<user_ip>\d{1,3}(?:\.\d{1,3}){3})) - - \[(?<time>\d{2}\/\p{L}{3}\/\d{4}:\d{2}:\d{2}:\d{2} \+\d{4})\]\z/
请注意,当以自由间距模式编写正则表达式时,上面的空格中有包含单个空格的字符类。这是必需的,因为在自由空间模式下,在解析表达式之前会删除未保护的空间。保护空间的另一种方法是逃脱它们(\
)。如果希望使用空格而不是空格,则可以使用\s
。