Question

我正在尝试从一个Android应用程序的网页中抓取一些数据。问题是，当我从页面中提取HTML时，我只得到页面的一小部分，而不是整个页面。当我转到Chrome中的实际页面时，按F12，我看到的代码比这个Java方法返回的更多。

以下是获取HTML字符串的代码：

        System.setProperty("http.agent", USER_AGENT);
        HttpResponse response = null;
        HttpGet get = null;
        HttpClient client = null;
        String s = "";
        try {
            if (client == null) {
                client = new DefaultHttpClient();
            }
            get = new HttpGet(URL_LOG_MAIN);
            response = client.execute(get);
            s = EntityUtils.toString(response.getEntity(), "UTF-8");
        } catch (IOException ex) {
            ex.printStackTrace();
        }
        return s;

我有这些硬编码常量：

    private static final String URL_LOG_MAIN = "https://changelog.omnirom.org/";
    private static final String USER_AGENT = "Mozilla//5.0 (Windows; U; Windows NT 6.0; en-US; rv:1.9.0.10) Gecko//2009042316 Firefox//3.0.10 (.NET CLR 3.5.30729)";

Answer 1

我缺少的页面部分是由JavaScript生成的，因为页面非常动态，并且在团队Github repo更改时随时更新。

Java不返回整个HTML字符串，只返回它的一部分

1 个答案: