在HtmlUnit HtmlElement中访问原始HTML?

时间:2014-05-07 13:04:42

标签: javascript htmlunit

我正在使用HtmlUnit来阅读网站上的内容。

一切都完美无缺,我正在阅读以下内容:

  HtmlDivision div = page.getHtmlElementById("my-id");

偶数div.asText()返回预期的String对象,但我希望将<div>...</div>内的原始HTML作为String对象。我怎么能这样做?

我不愿意将HtlmUnit更改为其他内容,因为该网站希望客户端运行JavaScript,HtmlUnit似乎能够执行所需的操作。

1 个答案:

答案 0 :(得分:0)

如果通过原始HTML 表示HTMLUnit已经格式化的HTML代码,那么您可以使用div.asXml()。现在,如果您真的在寻找服务器发送给您的原始HTML ,那么您将找不到这样做的方法(至少在v2.14之前)。

现在,作为一种解决方法,您可以获得服务器通过此答案发送给您的页面的全文:How to get the pure raw HTML of a page in HTMLUnit while ignoring JavaScript and CSS?

作为旁注,您应该三思而后行,为什么需要HTML代码。 HTMLUnit将允许您从代码中获取数据,因此不需要存储源代码,而是存储它包含的信息。我的2美分。