Java - 如何加载HTML网站的完整源代码

时间:2012-03-23 22:44:59

标签: java html web-scraping

我正在尝试将HTML网站的完整源代码加载到Java中的String。我尝试了几种方法,但是,我得到了几乎所有的源代码。更糟糕的是:我没有得到的主要部分之一是我最需要的部分!

2 个答案:

答案 0 :(得分:5)

可能是因为您要查找的内容实际上是通过ajax / javascript动态加载的。

例如,一个网站可能包含一个空的DIV标记,只有在页面加载后才会填充许多内容(通过AJAX调用到另一个位置)。

答案 1 :(得分:5)

URL url = new URL("http://www.website.com");
URLConnection spoof = url.openConnection();

//Spoof the connection so we look like a web browser
spoof.setRequestProperty( "User-Agent", "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0;    H010818)" );
BufferedReader in = new BufferedReader(new InputStreamReader(spoof.getInputStream()));
String strLine = "";
String finalHTML = "";
//Loop through every line in the source
while ((strLine = in.readLine()) != null){
   finalHTML += strLine;
}