如何阅读未包含在html源代码中的java网页内容?

时间:2018-04-30 15:24:38

标签: java web

我曾经使用以下代码用java:

读取http://piibel.net内容
String url = "http://piibel.net/?q=Ap%2015";
URL oracle = new URL(url);
BufferedReader in = new BufferedReader(new InputStreamReader(oracle.openStream(),"UTF-8"));
String inputLine;
LinkedList<String> alamvärsid = new LinkedList<String>();
while ((inputLine = in.readLine()) != null){
//do something
}

它工作正常,但现在他们已经改变了一些东西,我们从该网页上读到的实际文本是&#34;动态内容&#34;并且您无法再从源代码访问它!但源代码是java实际读取的东西!

我试图谷歌这个问题,但人们大多只询问如何阅读没有HTML标签的网页的纯文本。这不是我的问题;我可以使用html源代码正常工作。问题是我要查找的信息不在源代码中。我可以在&#34;检查元素中看到它&#34; Chrome和Firefox的功能,但java不会为我重现该功能。

1 个答案:

答案 0 :(得分:0)

我看到有一些XHR请求正在后台进行,这些请求带来了您正在寻找的内容

http://piibel.net/.xml

http://piibel.net/.xml?q=1Ms%202

http://piibel.net/.xml?q=1Ms%203

警告:在所有情况下,刮痧数据可能都不合法。