我正在尝试创建一个我想要的程序,当我点击任何网址或者您可以说网站时,我会阅读该网站的所有内容。我正在使用URL类。
这是我的代码..
import java.net.*;
import java.io.*;
public class URLConnectionReader
{
public static void main(String[] args) throws Exception
{
URL oracle = new URL("http://www.oracle.com/index.html");
URLConnection yc = oracle.openConnection();
BufferedReader in = new BufferedReader(new InputStreamReader(yc.getInputStream()));
String inputLine;
while ((inputLine = in.readLine()) != null)
System.out.println(inputLine);
in.close();
}
}
但是作为回应它显示了查看页面源的内容,我只想要网页内容,而不是全部。我怎么能这样做?
答案 0 :(得分:1)
然后使用HTML解析器(如jsoup)
解析您收到的HTML答案 1 :(得分:0)
网页内容==页面来源。浏览器分析html并将其可视化以供人眼使用。 如果你只想要正文,你可以使用jsoup:
String text = Jsoup.parse(html).body().text();
但你也会得到一些商业广告,菜单和其他不需要你想要的内容的文字。