使用HtmlUnit刮取移动网站

时间:2018-05-20 12:00:08

标签: javascript web-scraping htmlunit

我正在使用Htmlunit抓取移动版网站。我认为这个网站用一些脚本生成部分html。我无法解析网站的整个HTML,只有html,我认为它不是动态生成的。我不确定我设置移动用户代理的方式是纠正器还是我在读取页面时做错了什么。我已经尝试了在线程上发布的解决方案来解释动态生成的网站的方法所以我不知道什么是解决我的问题的关键,所以也许网站不会动态生成其部分动态

这是我的代码:

/* turn off annoying htmlunit warnings */
        java.util.logging.Logger.getLogger("com.gargoylesoftware").setLevel(java.util.logging.Level.OFF);

        final BrowserVersionBuilder myMobileExplorerBuilder = new BrowserVersion.BrowserVersionBuilder(BrowserVersion.FIREFOX_52);
        myMobileExplorerBuilder.setUserAgent("Mozilla/5.0 (iPhone; U; CPU iPhone OS 3_0 like Mac OS X; en-us) AppleWebKit/528.18 (KHTML, like Gecko) Version/4.0 Mobile/7A341 Safari/528.16");


        WebClient client = new WebClient(myMobileExplorerBuilder.build());  
        client.getOptions().setCssEnabled(false);  
        client.getOptions().setJavaScriptEnabled(true);
        client.getOptions().setThrowExceptionOnScriptError(false);
        client.getOptions().setActiveXNative(true);

        String url = "https://mobile.bet365.es/";

        HtmlPage page = client.getPage(url);

        System.out.println(page.getBody().asXml());

0 个答案:

没有答案