HTML解析为Ruby中的DOM

时间:2012-12-09 21:01:53

标签: html ruby dom html-parsing nokogiri

Ruby中是否有任何HTML解析器将HTML文档读入DOM树并将HTML标记表示为DOM元素?

我知道Nokogiri,但它没有将HTML解析为DOM树。

1 个答案:

答案 0 :(得分:6)

尽管你的评论,Nokogiri还是要走的路:

doc = Nokogiri::HTML('<body><p>Hello, worlds!</body>')

它解析甚至无效的HTML并返回一个DOM树:

>> doc.class
=> Nokogiri::HTML::Document
>> doc.root.class
=> Nokogiri::XML::Element
>> doc.root.children.class
=> Nokogiri::XML::NodeSet
>> doc.root.children.first.content
=> "Hello, worlds!"