我正在尝试从一个Android应用程序的网页中抓取一些数据。问题是,当我从页面中提取HTML时,我只得到页面的一小部分,而不是整个页面。当我转到Chrome中的实际页面时,按F12,我看到的代码比这个Java方法返回的更多。
以下是获取HTML字符串的代码:
System.setProperty("http.agent", USER_AGENT);
HttpResponse response = null;
HttpGet get = null;
HttpClient client = null;
String s = "";
try {
if (client == null) {
client = new DefaultHttpClient();
}
get = new HttpGet(URL_LOG_MAIN);
response = client.execute(get);
s = EntityUtils.toString(response.getEntity(), "UTF-8");
} catch (IOException ex) {
ex.printStackTrace();
}
return s;
我有这些硬编码常量:
private static final String URL_LOG_MAIN = "https://changelog.omnirom.org/";
private static final String USER_AGENT = "Mozilla//5.0 (Windows; U; Windows NT 6.0; en-US; rv:1.9.0.10) Gecko//2009042316 Firefox//3.0.10 (.NET CLR 3.5.30729)";
答案 0 :(得分:0)
我缺少的页面部分是由JavaScript生成的,因为页面非常动态,并且在团队Github repo更改时随时更新。