Question

我正在尝试将HTML网站的完整源代码加载到Java中的String。我尝试了几种方法，但是，我得到了几乎所有的源代码。更糟糕的是：我没有得到的主要部分之一是我最需要的部分！

Answer 1

可能是因为您要查找的内容实际上是通过ajax / javascript动态加载的。

例如，一个网站可能包含一个空的DIV标记，只有在页面加载后才会填充许多内容（通过AJAX调用到另一个位置）。

Answer 2

URL url = new URL("http://www.website.com");
URLConnection spoof = url.openConnection();

//Spoof the connection so we look like a web browser
spoof.setRequestProperty( "User-Agent", "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0;    H010818)" );
BufferedReader in = new BufferedReader(new InputStreamReader(spoof.getInputStream()));
String strLine = "";
String finalHTML = "";
//Loop through every line in the source
while ((strLine = in.readLine()) != null){
   finalHTML += strLine;
}

Java - 如何加载HTML网站的完整源代码

2 个答案: