Question

我是java编程的新手。我只想要页面的网页内容。但是我得到的程序给了html标签以及我不想要的内容。

任何人都可以帮我吗？

谢谢。

我的代码如下所示：

import java.net.*;
import java.io.*;

public class URLReader {
    public static void main(String[] args) throws Exception {

    URL oracle = new URL("http://www.oracle.com/");
    BufferedReader in = new BufferedReader(
    new InputStreamReader(oracle.openStream()));

    String inputLine;
    while ((inputLine = in.readLine()) != null)
        System.out.println(inputLine);
    in.close();
    }
}

Answer 1

如果您真的只想要网页的一小部分，那么您必须解析收到的HTML页面。没有别的办法了。当您使用InputStreamReader读取页面内容时，您将获得与浏览器相同的内容。

浏览器与您的代码之间的唯一区别是浏览器会解释内容。

您需要解析所找到的HTML（XML）内容才能找到正确的文字。

这是一个很好的教程，您可以使用内置的Java XML解析器：https://www.tutorialspoint.com/java_xml/java_dom_parser.htm

网页内容（可读性视图）

1 个答案: