从几秒钟后重新加载页面的网站上抓取HTML

时间:2017-03-17 14:41:50

标签: java htmlunit

我想使用Jsoup和HtmlUnit从http://www3.mangafreak.net/Manga/One_Piece等网站抓取HTML。像这样的网站问题首先是它给出

  

状态代码:503服务暂时不可用

然后几秒后用

重新加载页面
  

状态代码:200 OK

1 个答案:

答案 0 :(得分:1)

试试这个(仅限HtmlUnit)

    WebClient webClient = new WebClient();
    webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);

    HtmlPage page = (HtmlPage) webClient.getPage("http://www3.mangafreak.net/Manga/One_Piece");
    System.out.println(page.asXml());

    WebWindow window = page.getEnclosingWindow();
    window.getJobManager().waitForJobsStartingBefore(5000);

    page = (HtmlPage) window.getEnclosedPage();
    System.out.println(page.asXml());

没有你的页面,你可以使用HtmlUnit API获得DOM树的乐趣或点击某些东西......