Java不返回整个HTML字符串,只返回它的一部分

时间:2014-02-12 22:04:57

标签: java android apache-httpclient-4.x

我正在尝试从一个Android应用程序的网页中抓取一些数据。问题是,当我从页面中提取HTML时,我只得到页面的一小部分,而不是整个页面。当我转到Chrome中的实际页面时,按F12,我看到的代码比这个Java方法返回的更多。

以下是获取HTML字符串的代码:

        System.setProperty("http.agent", USER_AGENT);
        HttpResponse response = null;
        HttpGet get = null;
        HttpClient client = null;
        String s = "";
        try {
            if (client == null) {
                client = new DefaultHttpClient();
            }
            get = new HttpGet(URL_LOG_MAIN);
            response = client.execute(get);
            s = EntityUtils.toString(response.getEntity(), "UTF-8");
        } catch (IOException ex) {
            ex.printStackTrace();
        }
        return s;

我有这些硬编码常量:

    private static final String URL_LOG_MAIN = "https://changelog.omnirom.org/";
    private static final String USER_AGENT = "Mozilla//5.0 (Windows; U; Windows NT 6.0; en-US; rv:1.9.0.10) Gecko//2009042316 Firefox//3.0.10 (.NET CLR 3.5.30729)";

1 个答案:

答案 0 :(得分:0)

我缺少的页面部分是由JavaScript生成的,因为页面非常动态,并且在团队Github repo更改时随时更新。