HtmlUnit for Java很棒,但我无法弄清楚如何查看完整的源代码或将网站的源代码作为字符串返回。任何人都可以帮我这个吗?
我知道以下内容会读取该网站,但现在我只想将源代码返回给字符串。
HtmlPage mySite = webClient.getPage("http://mysite.com");
谢谢!
答案 0 :(得分:14)
String pageSource = myPage.asXml();
这将为您提供网页的完整HTML源代码。
String pageText = myPage.asText();
这将获取页面上的所有可见文本,包括换行符/空格。如果您在浏览器中的页面上Ctrl+A
然后Ctrl+V
进入变量,那就相同了。
答案 1 :(得分:13)
从API看,我的想法是:
mySite.getWebResponse().getContentAsString();
答案 2 :(得分:2)
你试过mySite.asXml()
吗?或者你可以mySite.getDocumentElement().toString()