HtmlUnit不取消Ajax / JavaScript生成的HTML

时间:2019-03-25 11:26:24

标签: java web-crawler htmlunit

我正在尝试使用预构建URL搜索页面。我尝试抓取的示例URL是https://ksl.com/auto/search/index?keyword=honda,但未显示完整的HTML。它在上一个搜索页面上使用Ajax,该页面在https://www.ksl.com/auto/

中找到

我的Full Web客户端如下

 try {
        WebClient webClient = new WebClient(BrowserVersion.FIREFOX_60);
        webClient.getOptions().setJavaScriptEnabled(true);
        webClient.getOptions().setThrowExceptionOnScriptError(false);
        webClient.getOptions().setCssEnabled(false);
        webClient.setAjaxController(new NicelyResynchronizingAjaxController());
        webClient.setJavaScriptTimeout(600000);
        webClient.waitForBackgroundJavaScript(100000);
        HtmlPage page = webClient.getPage(url);
        System.out.println(page.asXml());
    } catch (IOException e) {
        e.printStackTrace();
    }

我希望可以打印出完全加载的页面中的所有HTML,这样我就可以获取不同的列表信息,但是它并不能加载所有内容。

0 个答案:

没有答案