Question

我正在使用HtmlUnit来阅读网站上的内容。

一切都完美无缺，我正在阅读以下内容：

  HtmlDivision div = page.getHtmlElementById("my-id");

偶数div.asText()返回预期的String对象，但我希望将<div>...</div>内的原始HTML作为String对象。我怎么能这样做？

我不愿意将HtlmUnit更改为其他内容，因为该网站希望客户端运行JavaScript，HtmlUnit似乎能够执行所需的操作。

Answer 1

如果通过原始HTML 表示HTMLUnit已经格式化的HTML代码，那么您可以使用div.asXml()。现在，如果您真的在寻找服务器发送给您的原始HTML ，那么您将找不到这样做的方法（至少在v2.14之前）。

现在，作为一种解决方法，您可以获得服务器通过此答案发送给您的页面的全文：How to get the pure raw HTML of a page in HTMLUnit while ignoring JavaScript and CSS?

作为旁注，您应该三思而后行，为什么需要HTML代码。 HTMLUnit将允许您从代码中获取数据，因此不需要存储源代码，而是存储它包含的信息。我的2美分。