apache weblog的正则表达式

时间:2015-07-29 11:58:39

标签: java regex apache talend

我有一个apache日志的以下条目,我尝试使用regualar表达式输入组件解析talend。

未能进入:

  

100.100.100.100 - - [02 / Jun / 2015:00:15:17 +0200]“GET / xxx / xxx / HTTP / 1.1”301 - - “Mozilla / 4.0(兼容; MSIE 6.0; Windows NT 5.0) )“

传递条目:

  

100.100.100.100 - - [02 / Jun / 2015:00:15:17 +0200]“GET / xxx / xxx / HTTP / 1.1”200 58835 - “Mozilla / 4.0(兼容; MSIE 6.0; Windows NT)   5.0)“

我使用以下正则表达式:

("^([\\S.]+) (\\S+) (\\S+) \\[(\\d{2}/\\w{3}/\\d{4}):(\\d{2}:\\d{2}:\\d{2}) ([+\\-]\\d{4})\\] "
+"\"([A-Z]+) (.+?) (.+?)\\ (\\d{3}+) (\\S+) ?\"?([^\"]*)\"? ?\"?([^\"]*)\"? ")

我使用Talend处理日志文件,程序总​​是在301后抱怨“ - ”,但在正则表达式中它被定义为\ S +。在我看来,该程序通过该条目应该存在问题。你认为这是一个错误还是我错过了什么?

亲切的问候

0 个答案:

没有答案