htmlcleaner只刮取第一个body标签和子节点

时间:2012-06-07 02:02:00

标签: java htmlcleaner

我正在使用java htmlcleaner,我正在寻找只抓第一个身体标签及其所有孩子。我想省略html,head,doctype标签。

我看过nodeByXpath,但它似乎只适用于ant而不是java。有人知道如何在java中这样做吗?

1 个答案:

答案 0 :(得分:0)

使用nodeByXPath命令行arg运行时,HtmlCleaner会评估整个文档,然后在其上调用evaluateXPath(...)
因此,不会有任何性能提升,您可以手动完成。