如何从网页获取特定文本

时间:2013-09-23 08:30:59

标签: java html string url

我在stackoverflow和google上寻找这个问题的答案,无法真正找到我想要的东西。

当我想使用此代码

从页面中检索数据时,就像这样
public class ConsoleSearch {

    public static void main(String[] args) throws IOException {

        URL url = new URL("http://www.stackoverflow.com");
        URLConnection cnt = url.openConnection();
        BufferedReader br = new BufferedReader(new InputStreamReader
(cnt.getInputStream()));
        String content;

        while((content = br.readLine()) != null){   
            System.out.println(content);
        }
        br.close();
    }

}

我显然得到了HTML标签以及随附的所有其他内容。 我可以使用HtmlCleaner轻松过滤HTML 当我想要从所有检索到的数据中检索特定文本时,具有挑战性的部分以及我发现自己陷入困境的地方。

例如,如果我只想检索文本“新斯科舍省”和/或“欧洲”......我该怎么做?

1 个答案:

答案 0 :(得分:2)

Pattern p = Pattern.compile("Nova Scotia"); 
    Matcher m = p.matcher(content);
    boolean b = m.matches();

只需查看上面的正则表达式包,它对您有所帮助。