我正在尝试将HTML网站的完整源代码加载到Java中的String
。我尝试了几种方法,但是,我得到了几乎所有的源代码。更糟糕的是:我没有得到的主要部分之一是我最需要的部分!
答案 0 :(得分:5)
可能是因为您要查找的内容实际上是通过ajax / javascript动态加载的。
例如,一个网站可能包含一个空的DIV标记,只有在页面加载后才会填充许多内容(通过AJAX调用到另一个位置)。答案 1 :(得分:5)
URL url = new URL("http://www.website.com");
URLConnection spoof = url.openConnection();
//Spoof the connection so we look like a web browser
spoof.setRequestProperty( "User-Agent", "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0; H010818)" );
BufferedReader in = new BufferedReader(new InputStreamReader(spoof.getInputStream()));
String strLine = "";
String finalHTML = "";
//Loop through every line in the source
while ((strLine = in.readLine()) != null){
finalHTML += strLine;
}