我有一个文档,想要提取一些元素,这些元素直接指向父元素的后代,但却忽略了其他元素。 问题是我没有按照它们在文档中出现的顺序获取元素。 原因可能实际上是我使用的CSS选择器是错误的......
require 'rubygems'
require 'nokogiri'
require 'open-uri'
html = <<END
<content>
<p>Lorem</p>
<div>
FOO
<p>BAR</p>
</div>
<h1>Ipsum</h1>
<p>Dolor</p>
<div>
BAR
<h2>FOO</h2>
</div>
<h2>Sit</h2>
<p>Amet</p>
</html>
END
Nokogiri::HTML(html).css('content > p, content > h1, content > h2').inner_html # "<p>Lorem</p><p>Dolor</p><p>Amet</p><h1>Ipsum</h1><h2>Sit</h2>"
我想要的是
<p>Lorem</p><h1>Ipsum</h1><p>Dolor</p><h2>Sit</h2><p>Amet</p>
答案 0 :(得分:1)
尝试使用此XPath:
//content/p|//content/h1|//content/h2
答案 1 :(得分:0)
您希望按照文档中显示的方式列出不同的元素,但正如您所看到的,您可以根据css选择器顺序获取元素。
要解决此问题,您必须向元素添加一个类属性,以便选择具有该类的所有元素,而不是仅使用一个css选择器,这意味着元素的顺序正确。