我正在使用Hpricot来解析主题文件。但是,我注意到,如果我将有效的HTML5文档提供给Hpricot(),它会自动关闭HTML5标记(如<section>
),并与DOCTYPE
混淆。
Hpricot是否有任何扩展,或者可能是我需要设置的标志,这样可以正确解析HTML5文档?
答案 0 :(得分:2)
我知道这有关于直接问题的解决方法,但我建议您尝试Nokogiri http://nokogiri.org/,如您在问题帖子中的一些评论中所述。我解析任何HTML / XML都没有问题,比如结构化文本,包括HTML5。
答案 1 :(得分:0)