应用错误收集

我想修改格式不正确的HTML（WordPress帖子）中的<img src="">属性。我知道我可以采取简单的方法并使用正则表达式，但我担心people in blue furry suits will come haunt me in my sleep。

如果我使用DOM解析器来读取HTML并修改<img>标签，我恐怕无法完全重建帖子（仅使用我的修改），因为DOM解析器将可能做了太多的清理工作，可能会删除基本数据。 SAX解析器可能无法处理无效的XML，因此这也不起作用。

那么，是否有中间路径，我可以使用DOM解析器，但是知道每个元素的起始位置，所以我可以从那里做字符串替换或类似的东西？我知道DOM树中的一些节点不会存在于源文档中（<b>Some <i>bizarre</b> formatting</i>可能会触发这个），但这是否意味着它总是不可能的？我看到PHP 5.3中添加了DOMNode::getLineNo() function，但我使用的是5.2.x。

使用DOM解析HTML时保持文件偏移量？

1 个答案: