我想使用Jsoup和HtmlUnit从http://www3.mangafreak.net/Manga/One_Piece等网站抓取HTML。像这样的网站问题首先是它给出
状态代码:503服务暂时不可用
然后几秒后用
重新加载页面状态代码:200 OK
答案 0 :(得分:1)
试试这个(仅限HtmlUnit)
WebClient webClient = new WebClient();
webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);
HtmlPage page = (HtmlPage) webClient.getPage("http://www3.mangafreak.net/Manga/One_Piece");
System.out.println(page.asXml());
WebWindow window = page.getEnclosingWindow();
window.getJobManager().waitForJobsStartingBefore(5000);
page = (HtmlPage) window.getEnclosedPage();
System.out.println(page.asXml());
没有你的页面,你可以使用HtmlUnit API获得DOM树的乐趣或点击某些东西......