我怎样才能让Hpricot与HTML5玩得很好?

时间:2010-05-18 04:14:41

标签: ruby-on-rails ruby html5 hpricot

我正在使用Hpricot来解析主题文件。但是,我注意到,如果我将有效的HTML5文档提供给Hpricot(),它会自动关闭HTML5标记(如<section>),并与DOCTYPE混淆。

Hpricot是否有任何扩展,或者可能是我需要设置的标志,这样可以正确解析HTML5文档?

2 个答案:

答案 0 :(得分:2)

我知道这有关于直接问题的解决方法,但我建议您尝试Nokogiri http://nokogiri.org/,如您在问题帖子中的一些评论中所述。我解析任何HTML / XML都没有问题,比如结构化文本,包括HTML5。

答案 1 :(得分:0)

我认为Hpricot的to_original_html方法正是您所需要的。

来自docs,to_original_html

  

尝试保留文档的原始HTML,仅为已更改的元素输出新标记。