Question

拥有此HTML-snippet

<td class="info">self-text
<br>
<b>child-text</b>
</td>

我想提取self-text和child-text。到目前为止，我正在使用这个正则表达式：

.//td[contains(@class, 'info')]/text() | .//td[contains(@class, 'info')]/b/text()

有没有更简单的方法呢？

Answer 1

您可以使用以下XPath表达式，该表达式将在外部td元素中的任何位置返回所有非空文本节点：

.//td[contains(@class, 'info')]//text()[normalize-space()]