应用错误收集

我有一个（大）文本正在努力尝试从原来的网络友好格式转换为“略微”更严格的内容（epub - 并且有些读者非常挑剔HTML接受）。

HTML净化器非常适用于一类问题，我将其称为“错误编码”。缺少封闭式括号（技术上合法的HTML）和浏览器自动解决的其他烦恼。

当HTML净化器不工作时，它会遇到编码问题。许多角色都保存在＆amp;＃1234;格式，（显然？）HTML净化器不关心。也许我只需要更好地配置它。另一个问题是我存在的祸根：卷曲引号，em-dashes等。我已经成功地在一些问题上进行了大规模的搜索和替换，但是我担心的是我可能在某个地方错过了一个角色（因为遇到了带有重音和魔咒的似曾相识的情况而带回家包括严重标记）。

有没有办法让HTML净化器告诉我这些字符存在问题，而不是默默地剥离它们？我正在尝试查看代码，但该软件非常适用于不同的用例场景（“默默地”处理用户输入，而不是程序员在文本主体上进行大规模转换），我只是没有看到我正在寻找的数据。

我可以使用HTML净化器来查找编码问题而不是仅仅剥离它们吗？

1 个答案: