如何忽略HtmlUnit中子元素的内容

时间:2014-03-05 23:33:37

标签: html dom xpath htmlunit

我正在尝试提取下面div中的文字,而不是a中的文字。

<div class="about">
   <a class="link" href="www.example.com"> Text I don't Want </a>
" Text I do want "
</div>

这是我的代码:

HtmlDivision personAge = htmlPage.getByXPath( "//div[@class='about']");      
String personAgeText = personAge.asText();
System.out.println(personAgeText);

输出:

Text I don't Want Text I do want 

我想以某种方式排除元素a中的内容。有什么建议?谢谢!

1 个答案:

答案 0 :(得分:0)

尝试在当前XPath的末尾添加/text()

//div[@class='about']/text()

/text()将为您带来所有文本节点,这些节点是当前元素的直接子节点(在这种情况下为<div class="about">)。