如何在HtmlUnit中获取子元素的内容?

时间:2011-05-03 17:52:53

标签: screen-scraping htmlunit

我有以下内容:

<th>
Q4/10
<br>
<span> Nov 30, 2010 </span>
</th>

我希望得到Q4/10但不是接下来的日期。我不知道如何在HtmlUnit中做到这一点。我知道我可以用空格分割这两个元素,然后在第一个空格之前取出所有内容,但我正在寻找基于标签本身的东西。

1 个答案:

答案 0 :(得分:1)

如果你知道你想要的文字是之前的任何子元素,你可以抓住它的第一个孩子,它将包含你的文字和一些空格:

HtmlTableHeaderCell th = ...
System.err.println( th.getFirstChild().toString().trim() ) ;

更通用的解决方案是循环遍历th的子节点,寻找文本节点,并忽略子元素。