在文档片段中查找注释或文本节点

时间:2016-11-24 13:27:58

标签: html ruby xml nokogiri

我必须清理一个Nokogiri :: HTML :: DocumentFragment文档(删除注释节点和仅包含空格的文本节点)。这是一个例子:

html = "<p>paragraph</p><!-- comment --><p>paragraph</p>   <p>paragraph</p>"
doc = Nokogiri::HTML::DocumentFragment.parse html

文档片段看起来像您期望的那样:

#(DocumentFragment:0x3fc65f9f5870 {
  name = "#document-fragment",
  children = [
    #(Element:0x3fc65f9f5064 { name = "p", children = [ #(Text "paragraph")] }),
    #(Comment " comment "),
    #(Element:0x3fc65f9f4f60 { name = "p", children = [ #(Text "paragraph")] }),
    #(Text "   "),
    #(Element:0x3fc65f9f4e48 { name = "p", children = [ #(Text "paragraph")] })
  ]
})

如何找到此文档片段中的所有注释或所有文本节点?

以下不起作用,因为它不是完整文档而是文档片段:

doc.search('//text()')
doc.search('//comment()')

1 个答案:

答案 0 :(得分:2)

想出来:

doc.search('.//text()')
doc.search('.//comment()')