Java中的Regex用于URL过滤

时间:2012-02-02 08:38:29

标签: java regex

我使用以下代码段将纯文本超链接转换为html url超链接。

message = message.replaceAll("(?:https?|ftps?|http?)://[\\w/%.\\-?&=]+",
        "<a href='$0' target='_blank'>$0</a>").replaceAll(
        "(www\\.)[\\w/%.\\-?&=]+", "<a href='http://$0' target='_blank'>$0</a>");

但我注意到某些网址组合无法成功转换为html超链接。任何人都可以建议如何改进这些案件的匹配代码吗?

enter image description here

3 个答案:

答案 0 :(得分:1)

我尝试了几次。想出了一个适用于所有情况的棘手模式,它会创建有效的 URL,除了优先处理尾随/的情况。希望有人建议快速解决这个问题。

以下是代码:

    String s="stackoverflow " +
            "http://naishe.blogspot.com " +
            "http://tw.com/#!/someTEXTs  " +
            "http://ts123t1.rapi.com/#!download|13321|1313|fairy_tale.mp4 " +
            "http://www.google.com/ " +
            "https://www.google.com/. " +
            "google.com " +
            "google.com, " +
            "google.com/test " +
            "123.com/test " +
            "ex-ample.com " +
            "http://ex-ample.com/test-url_chars?param1=val1&;par2=val+with%20spaces " +
            "something else";
    Pattern trimmer = Pattern.compile("(?:\\b(?:http|ftp|www\\.)\\S+\\b)|(?:\\b\\S+\\.com\\S*\\b)");
    Matcher m = trimmer.matcher(s);
    StringBuffer out = new StringBuffer();
    int i = 1;
    System.out.println(trimmer.toString());
    while(m.find()){
        System.out.println("|"+m.group()+"|");
    m.appendReplacement(out, "<a href=\""+m.group()+"\">URL"+ i++ +"</a>");
}
m.appendTail(out);
System.out.println(out+"!");

这是输出

(?:\b(?:http|ftp|www\.)\S+\b)|(?:\b\S+\.com\S*\b)
|http://naishe.blogspot.com|
|http://tw.com/#!/someTEXTs|
|http://ts123t1.rapi.com/#!download|13321|1313|fairy_tale.mp4|
|http://www.google.com|
|https://www.google.com|
|google.com|
|google.com|
|google.com/test|
|123.com/test|
|ex-ample.com|
|http://ex-ample.com/test-url_chars?param1=val1&;par2=val+with%20spaces|

stackoverflow <a href="http://naishe.blogspot.com">URL1</a> 
<a href="http://tw.com/#!/someTEXTs">URL2</a>  
<a href="http://ts123t1.rapi.com/#!download|13321|1313|fairy_tale.mp4">URL3</a>
 <a href="http://www.google.com">URL4</a>/ 
<a href="https://www.google.com">URL5</a>/.
 <a href="google.com">URL6</a> <a href="google.com">URL7</a>,
 <a href="google.com/test">URL8</a> <a href="123.com/test">URL9</a>
 <a href="ex-ample.com">URL10</a>
 <a href="http://ex-ample.com/test-url_chars?param1=val1&;par2=val+with%20spaces">URL11</a> something else!

你看到尾随/? :)

对OP的友好建议:在提供测试用例时请选择我们可以复制的格式。无法从JPEG复制到文本编辑器。

答案 1 :(得分:0)

URLEncoder.encode(String url, String encoding)应该帮助你,不是吗?

答案 2 :(得分:0)

以下是一个应与任何网址匹配的示例:

String input = "http://rs43lt13.rapidshare.com/#!download|46311|44541812469|fairy_tgail_045_sd.mp4";
String re_url="((?:http|https)(?::\\/{2}[\\w]+)(?:[\\/|\\.]?)(?:[^\\s\"]*))";

Pattern url_pattern = Pattern.compile(re_url,Pattern.CASE_INSENSITIVE | Pattern.DOTALL);
Matcher matches = url_pattern.matcher(input);
if (m.find()) {
  System.out.print("Found URL!" + m.group(1));
}

不要忘记事先导入java.util.regex。*。