如何从网页打印数据?不是页面的HTML代码。

时间:2013-12-19 16:46:07

标签: java html printing webpage

在java中我试图阅读一个网页。我只想打印页面的数据。但我的代码是打印整个HTML代码。看起来很奇怪。我可以看到我希望它隐藏在html中的确切数据。如何摆脱打印html代码? 这是我的代码:

URL url = new URL("http://www.rxbd.info/Controller/Controller?action=details&drug=zorubicin&group=generic");
URLConnection con = url.openConnection();
InputStream is =con.getInputStream();
BufferedReader br = new BufferedReader(new InputStreamReader(is));
String line = null;
while ((line = br.readLine()) != null ) {
    System.out.println(line);
}

1 个答案:

答案 0 :(得分:1)

看看JerichoRenderer类可以将原始HTML呈现为文本,TextExtractor类可以只提取文本。