我有一个像这样的HTML字符串。
html = '<div>outer<div>inner</div></div>'
我想仅从div
元素内部获取文本。
doc = Nokogiri::HTML(html)
doc.xpath('//div[contains(.,"inner")]')
但是这段代码不仅包含内部元素,还包含外部元素,因为外部元素还包含文本inner
。
如何找到包含没有内部HTML标记的特定文本的元素?
我可以通过doc.css('div > div')
在这种情况下轻松获取内部元素,但在实际情况下,我不确定存在多少div
个标记。内部文本可能包含更多文本,但内部类似:
html = '<div>outer<div>inner text</div></div>'