网页内容(可读性视图)

时间:2016-11-22 10:23:36

标签: java html

我是java编程的新手。我只想要页面的网页内容。但是我得到的程序给了html标签以及我不想要的内容。

任何人都可以帮我吗?

谢谢。

我的代码如下所示:

import java.net.*;
import java.io.*;

public class URLReader {
    public static void main(String[] args) throws Exception {

    URL oracle = new URL("http://www.oracle.com/");
    BufferedReader in = new BufferedReader(
    new InputStreamReader(oracle.openStream()));

    String inputLine;
    while ((inputLine = in.readLine()) != null)
        System.out.println(inputLine);
    in.close();
    }
}                                                                       

1 个答案:

答案 0 :(得分:1)

如果您真的只想要网页的一小部分,那么您必须解析收到的HTML页面。没有别的办法了。当您使用InputStreamReader读取页面内容时,您将获得与浏览器相同的内容。

浏览器与您的代码之间的唯一区别是浏览器会解释内容。

您需要解析所找到的HTML(XML)内容才能找到正确的文字。

这是一个很好的教程,您可以使用内置的Java XML解析器:https://www.tutorialspoint.com/java_xml/java_dom_parser.htm