如何在忽略JavaScript和CSS的同时在HTMLUnit中获取页面的纯原始HTML?

时间:2012-04-10 15:10:08

标签: htmlunit

我只想要页面的文本内容,并且我希望获取尽可能轻量级。我可以关闭HTMLUnit开箱即用的JavaScript,CSS和其他外部内容的所有解析和附加加载吗?

1 个答案:

答案 0 :(得分:9)

我认为最接近您所寻找的是:

WebClient webClient = new WebClient();
webClient.setCssEnabled(false);
webClient.setAppletEnabled(false);
webClient.setJavaScriptEnabled(false);

对于HtmlUnit 2.13及更高版本,请使用webclient.getOptions()

question和答案也可能有用。这对我来说真的让事情变得更快,但我不得不重新编译HtmlUnit ......

最后,为了获取页面的原始内容(而不是asXml()的输出),请尝试以下操作:

WebClient webClient = new WebClient();
HtmlPage page = webClient.getPage("http://www.yourpage.com");
String originalHtml = page.getWebResponse().getContentAsString();