Question

假设我有以下HTML代码：

...
<p>bla bla</p>
<h3>Foobar</h3>
<p>bla bla</p>
<p>bla bla</p>
<h3>Example</h3>
...

有没有办法获取包含文字h3的第一个Foobar元素？

Answer 1

由于这是HTML，我建议使用CSS选择器：

puts doc.at_css('h3:contains("Foobar")')

#=> <h3>Foobar</h3>

CSS解析器在解析HTML时倾向于使表达式更具可读性。我倾向于仅将XPath用于XML，或者当我需要XPath表达式的全部功能时。

Answer 2

doc.xpath("//h3[contains(text(), 'Foobar')]")

或者，如果目标文本可能位于h3的后代文本节点中，请使用：

doc.xpath("//h3[contains(.//text(), 'Foobar')]")

要直接获取第一个匹配元素而不是数组，请使用at_xpath而不是xpath。