在Nokogiri中禁用纠错

时间:2011-10-03 16:32:34

标签: html ruby nokogiri hpricot

我正在处理许多格式错误的HTML网页。至少,我认为它们是畸形的,因为当我在Nokogiri中解析它们然后执行to_html时,元素不再正确显示。但是,当我用Hpricot解析它们时,它们会正确显示。

我宁愿不使用Hpricot,因为似乎无法将Hpricot :: Elem实例添加到文档中(不将它们转换为字符串,添加,然后再次解析)。

我可以禁用Nokogiri的错误更正,以便我可以将HTML保存得更接近它的编写方式吗?

1 个答案:

答案 0 :(得分:2)

您的XHTML无效XHTML。如果我复制http://pastie.org/2638305中的内容,请将其保存为“foo.xhtml”,然后尝试在Chrome中打开它们,我看到了:

  

此页面包含以下错误:
  第39行第7行的错误:属性构造错误

如果我在第768行看,那么我看到(截断):

<img src="..." alt="Talk to us now!"http://wholesaleinsurance.net/>

正如您所看到的,这显然在语法上无效。

您声称您通过validator.w3.org运行了该页面,但是当我使用您的pastie的内容执行此操作时,我得到:

  

将此文档作为XHTML 1.0严格检查时发现错误!
  结果:15个错误,3个警告

那么......你的实际内容不是你放在馅饼里的吗?