我正在处理许多格式错误的HTML网页。至少,我认为它们是畸形的,因为当我在Nokogiri中解析它们然后执行to_html时,元素不再正确显示。但是,当我用Hpricot解析它们时,它们会正确显示。
我宁愿不使用Hpricot,因为似乎无法将Hpricot :: Elem实例添加到文档中(不将它们转换为字符串,添加,然后再次解析)。
我可以禁用Nokogiri的错误更正,以便我可以将HTML保存得更接近它的编写方式吗?
答案 0 :(得分:2)
您的XHTML无效XHTML。如果我复制http://pastie.org/2638305中的内容,请将其保存为“foo.xhtml”,然后尝试在Chrome中打开它们,我看到了:
此页面包含以下错误:
第39行第7行的错误:属性构造错误
如果我在第768行看,那么我看到(截断):
<img src="..." alt="Talk to us now!"http://wholesaleinsurance.net/>
正如您所看到的,这显然在语法上无效。
您声称您通过validator.w3.org运行了该页面,但是当我使用您的pastie的内容执行此操作时,我得到:
将此文档作为XHTML 1.0严格检查时发现错误!
结果:15个错误,3个警告
那么......你的实际内容不是你放在馅饼里的吗?