Question

我正在尝试创建一个我想要的程序，当我点击任何网址或者您可以说网站时，我会阅读该网站的所有内容。我正在使用URL类。

这是我的代码..

 import java.net.*;
 import java.io.*;
 public class URLConnectionReader 
 {
 public static void main(String[] args) throws Exception 
{
     URL oracle = new URL("http://www.oracle.com/index.html");
     URLConnection yc = oracle.openConnection();

    BufferedReader in = new BufferedReader(new InputStreamReader(yc.getInputStream()));
    String inputLine;
    while ((inputLine = in.readLine()) != null)

    System.out.println(inputLine);

    in.close();
}
}

但是作为回应它显示了查看页面源的内容，我只想要网页内容，而不是全部。我怎么能这样做？

Answer 1

然后使用HTML解析器（如jsoup）

解析您收到的HTML

Answer 2

网页内容==页面来源。浏览器分析html并将其可视化以供人眼使用。如果你只想要正文，你可以使用jsoup：

String text = Jsoup.parse(html).body().text();

但你也会得到一些商业广告，菜单和其他不需要你想要的内容的文字。

点击任何URL时处理响应

2 个答案: