应用错误收集

我需要解析HTML片段，我的意思是文件缺少＆lt; html＆gt;，＆lt; head＆gt;和＆lt; body＆gt;元素，否则具有格式良好的XHTML语法，保证UTF8编码。看起来libxml非常适合这项任务，但是我有一些我不知道如何实现的约束。

htmlSAXParseFile（）完成它的工作，但它似乎创建了DOM本身，在进程中插入了 body 和 html 元素。我想自己创建DOM，因为我可能需要跳过一些元素并动态修改其他元素。有可能以某种方式告诉libxml 根本不创建DOM 而只是解析HTML并调用我的处理程序吗？
如果这对于libxml HTML解析器是不可能的，我不妨使用似乎不创建DOM的xmlSAXUserParseFile（）。但是，由于文件的结构类似于＆lt; p＆gt; ...＆lt; / p＆gt;＆lt; p＆gt; ...＆lt; / p＆gt;，解析器过早地吐出“文档末尾的额外内容” 。有没有办法抑制一些解析错误，同时仍然得到有关它们的通知（只是因为没有人保证这些文件中永远不会有其他错误）？
在libxml中解析函数有一大堆，其中一些函数接受xmlParserOption作为参数。唉，xmlSAXUserParseFile（）没有。那些完成所有这些似乎都是为了一些不相关的API设计原因而创建DOM。我错过了一个明显的候选人吗？

哦，我承认我不愿意使用libxml的DOM看起来像个怪癖。我非常受限于RAM，因此我迫切需要对DOM进行全面控制才能在低内存条件下丢弃某些节点并在必要时重新读取它们。

提前致谢。