我知道你可能认为这个问题很愚蠢,但我需要使用HtmlUnit。但是,它以XML或文本形式返回页面。
我不知道如何获得纯HTML(与浏览器返回的源代码相同)
我需要这个,因为我需要使用一些书面模块。有什么想法吗?
答案 0 :(得分:15)
您可以使用以下代码来实现目标:
WebClient webClient = new WebClient();
Page page = webClient.getPage("http://example.com");
WebResponse response = page.getWebResponse();
String content = response.getContentAsString();
请参阅javadocs of the WebResponse.html#getContentAsString() method。