我正在使用HtmlUnit来阅读网站上的内容。
一切都完美无缺,我正在阅读以下内容:
HtmlDivision div = page.getHtmlElementById("my-id");
偶数div.asText()
返回预期的String对象,但我希望将<div>...</div>
内的原始HTML作为String对象。我怎么能这样做?
我不愿意将HtlmUnit
更改为其他内容,因为该网站希望客户端运行JavaScript,HtmlUnit
似乎能够执行所需的操作。
答案 0 :(得分:0)
如果通过原始HTML 表示HTMLUnit已经格式化的HTML代码,那么您可以使用div.asXml()
。现在,如果您真的在寻找服务器发送给您的原始HTML ,那么您将找不到这样做的方法(至少在v2.14之前)。
现在,作为一种解决方法,您可以获得服务器通过此答案发送给您的页面的全文:How to get the pure raw HTML of a page in HTMLUnit while ignoring JavaScript and CSS?
作为旁注,您应该三思而后行,为什么需要HTML代码。 HTMLUnit将允许您从代码中获取数据,因此不需要存储源代码,而是存储它包含的信息。我的2美分。