如何使用HtmlUnit获取HTML页面

时间:2012-02-19 22:53:49

标签: java htmlunit

我知道你可能认为这个问题很愚蠢,但我需要使用HtmlUnit。但是,它以XML或文本形式返回页面。

我不知道如何获得纯HTML(与浏览器返回的源代码相同)

我需要这个,因为我需要使用一些书面模块。有什么想法吗?

1 个答案:

答案 0 :(得分:15)

您可以使用以下代码来实现目标:

WebClient webClient = new WebClient();
Page page = webClient.getPage("http://example.com");
WebResponse response = page.getWebResponse();
String content = response.getContentAsString();

请参阅javadocs of the WebResponse.html#getContentAsString() method