Java正则表达式模式匹配器 - 如何允许选择?

时间:2013-08-05 00:51:36

标签: java regex

在Java中,我有一段处理Apache Web服务器日志的代码,并检查URL扩展类型。当URL的格式为“/index.html”时,它运行良好,但偶尔URL为“/”,这会破坏代码。

下面的代码工作正常,但如果在输入行“/index.html”更改为“/”,那么它将会中断,因为第19行(\\.\\S*)检查一个点后跟几个字符,但是如果URL为“/”,则找不到正则表达式的点。

如何重写第19行(\\.\\S*)以允许选择.extension或“/”?

换句话说:
如果URL = index.html,则扩展名为.html
如果URL = index.php,则扩展名为.php
如果URL = /,则扩展名为“”

import java.util.regex.*;

public class Test {

    public static void main(String[] args) {

        String log_input = "123.45.67.89 - - [27/Oct/2000:09:27:09 -0400] \"GET /index.html HTTP/1.0\" 200 10450 \"-\" \"Mozilla/4.6 [en] (X11; U; OpenBSD 2.8 i386; Nav)\"";             
      //String log_input = "123.45.67.89 - - [27/Oct/2000:09:27:09 -0400] \"GET / HTTP/1.0\" 200 10450 \"-\" \"Mozilla/4.6 [en] (X11; U; OpenBSD 2.8 i386; Nav)\""; 

        //step 1 - split log line
        Pattern p = Pattern.compile("^([\\d.]+) (\\S+) (\\S+) \\[([\\w:/]+\\s[+\\-]\\d{4})\\] \"(.+)\" (\\d{3}) (\\d+) \"([^\"]+)\" \"([^\"]+)\"");
        Matcher m = p.matcher(log_input);       
        m.matches();
        String request_ip = m.group(1);
        String request_resource = m.group(5);
        System.out.println("Input: " + m.group(5));

        //step 2 - check file extension
        Pattern p2 = Pattern.compile(".* .*(\\.\\S*) .*");
        Matcher m2 = p2.matcher(request_resource);  
        m2.matches();
        String request_resource_ext = m2.group(1);
        System.out.println("Extension: " + request_resource_ext);

        if(request_resource_ext.matches("\\.htm|\\.html|\\.php|^$")){ //^$ in case the URL is / which has no extension
            System.out.println("Write");
        }else{
            System.out.println("Do not write");
        }

    }

}

1 个答案:

答案 0 :(得分:3)

使用以下正则表达式:

.* (?:/|.*(\\.\\S*)) .*

它使用管道|字符来匹配/ 一个带点的文件名。

?:使该组无法捕获,以便m2.group(1)继续像以前一样工作。