Question

我正在尝试提取仅下面div中的文字，而不是a中的文字。

<div class="about">
   <a class="link" href="www.example.com"> Text I don't Want </a>
" Text I do want "
</div>

这是我的代码：

HtmlDivision personAge = htmlPage.getByXPath( "//div[@class='about']");      
String personAgeText = personAge.asText();
System.out.println(personAgeText);

输出：

Text I don't Want Text I do want

我想以某种方式排除元素a中的内容。有什么建议？谢谢！

Answer 1

尝试在当前XPath的末尾添加/text()：

//div[@class='about']/text()

/text()将为您带来所有文本节点，这些节点是当前元素的直接子节点（在这种情况下为<div class="about">）。

如何忽略HtmlUnit中子元素的内容

1 个答案: