拥有此HTML-snippet
<td class="info">self-text
<br>
<b>child-text</b>
</td>
我想提取self-text
和child-text
。
到目前为止,我正在使用这个正则表达式:
.//td[contains(@class, 'info')]/text() | .//td[contains(@class, 'info')]/b/text()
有没有更简单的方法呢?
答案 0 :(得分:1)
您可以使用以下XPath表达式,该表达式将在外部td
元素中的任何位置返回所有非空文本节点:
.//td[contains(@class, 'info')]//text()[normalize-space()]