试图从Java输出中获取URL

时间:2011-02-19 19:04:18

标签: java parsing url

我是Java新手,一直在寻找解决方案......也许我没有在正确的术语上搜索。

我的目标:我有一个Java类,它使用webdriver转到页面,执行搜索...并输出结果。输出结果包含带URL的纯文本。我关心的只是返回的URL。所以基本上,我想把我的输出像:

  

搜索结果1   http://www.somesite.com/blahblah这个   是搜索结果中的网站。

但我想要的只是URL,我想转储其余的输出。我已经研究了'在java中解析',但没有找到我正在寻找的东西。任何指针都将非常感激。

2 个答案:

答案 0 :(得分:3)

Pattern pattern = Pattern.compile("http://[^\\s]*");
Matcher matcher = pattern
    .matcher("Search result 1 http://www.somesite.com/blahbl+ah1 this is a site from the search results.\nSearch result 1 http://www.somesite.com/blahblah2 this is a site from the search results.");

for (int begin = 0; matcher.find(begin); begin = matcher.end())
{
    System.out.println(matcher.group(0));
}

答案 1 :(得分:1)

查看正则表达式包:http://download.oracle.com/javase/1.4.2/docs/api/java/util/regex/package-summary.html

当然还有其他方法可以解析,但是继续使用regexp路线可能是最干净的。