我是java编程的新手。我只想要页面的网页内容。但是我得到的程序给了html
标签以及我不想要的内容。
任何人都可以帮我吗?
谢谢。
我的代码如下所示:
import java.net.*;
import java.io.*;
public class URLReader {
public static void main(String[] args) throws Exception {
URL oracle = new URL("http://www.oracle.com/");
BufferedReader in = new BufferedReader(
new InputStreamReader(oracle.openStream()));
String inputLine;
while ((inputLine = in.readLine()) != null)
System.out.println(inputLine);
in.close();
}
}
答案 0 :(得分:1)
如果您真的只想要网页的一小部分,那么您必须解析收到的HTML页面。没有别的办法了。当您使用InputStreamReader读取页面内容时,您将获得与浏览器相同的内容。
浏览器与您的代码之间的唯一区别是浏览器会解释内容。
您需要解析所找到的HTML(XML)内容才能找到正确的文字。
这是一个很好的教程,您可以使用内置的Java XML解析器:https://www.tutorialspoint.com/java_xml/java_dom_parser.htm