我希望能够解析包含的RSS和Atom提要
无效的XML。我遇到过并且想要解决的错误
包括“简单”的内容,例如结尾>
所在的;
缺少,缺少结束标签和关闭标签出现在
错误的订单。
我想忽略一个问题,理论上它是否有任何问题 尝试解析格式错误的XML文档。一 “技术”一词似乎与我想做的事情非常接近 是“标签汤”。我应该使用哪些现有的CPAN模块来构建这样的模块 能够容忍或纠正那些简单错误的解析器 如上所述?
答案 0 :(得分:4)
LibXML的recover
标志,如果你真的必须,或XML-Liberal如果你真的想在解析任何旧垃圾时过分。
我确信你想忽略解析非格式化文档是否有意义的问题,但忽略它不会让它消失。大多数RSS工具将完全正确地拒绝任何非格式良好的XML输入;你通常应该效仿,除非你的工具像RSS调试器一样不寻常。
“标签汤”是一个与HTML解析特别相关的术语。 XML(以及RSS和Atom)的核心思想之一就是没有这样的东西。