我需要使用libxml在c ++中解析html页面。我遇到一个问题,当使用一些函数doc = htmlParseDoc((xmlChar *)ptr,NULL);控制台注意问题似乎解析器破裂了 li>现在li - 不成对的标签。解析器说数字打开标签li mismatch关闭标签/ li。也许有人帮忙怎么办? 我要求恩惠帮助并抱歉,这不是我的母语。我试着整洁,但整洁地将这部分html与消息联系起来。我试着用xpath接口进行解析,但这不起作用。
答案 0 :(得分:1)
如果您愿意在Windows上使用托管代码(C#),则可以使用HTML Agility pack来处理此错误的HTML输入。
否则,Tidy之类的内容可能适合您。