使用Perl解析损坏的RSS提要

时间:2010-06-24 21:46:11

标签: xml perl rss atom-feed

我希望能够解析包含的RSS和Atom提要 无效的XML。我遇到过并且想要解决的错误 包括“简单”的内容,例如结尾&gt所在的; 缺少,缺少结束标签和关闭标签出现在 错误的订单。

我想忽略一个问题,理论上它是否有任何问题 尝试解析格式错误的XML文档。一 “技术”一词似乎与我想做的事情非常接近 是“标签汤”。我应该使用哪些现有的CPAN模块来构建这样的模块 能够容忍或纠正那些简单错误的解析器 如上所述?

1 个答案:

答案 0 :(得分:4)

LibXMLrecover标志,如果你真的必须,或XML-Liberal如果你真的想在解析任何旧垃圾时过分。

我确信你想忽略解析非格式化文档是否有意义的问题,但忽略它不会让它消失。大多数RSS工具将完全正确地拒绝任何非格式良好的XML输入;你通常应该效仿,除非你的工具像RSS调试器一样不寻常。

“标签汤”是一个与HTML解析特别相关的术语。 XML(以及RS​​S和Atom)的核心思想之一就是没有这样的东西。