我正在尝试从HTML页面中抓取一些内容。我正在使用libxml2和htmlReadMemory来获取xmlDocPtr。 HTML很简单,但是有问题。它基本上如下:
<tr><td><tr><td>Some content</td></tr></td></tr>
libxml不喜欢嵌套的tr,tds。它一直给我以下错误:
HTML parser error : Unexpected end tag : td
</TD>
^
HTML parser error : Unexpected end tag : tr
</TR>
我使用以下选项:HTML_PARSE_RECOVER。
此时我没有做任何事情允许libxml解析HTML因为这个。我无法更改HTML,因为我无法访问它。
任何人都有任何线索如何让libxml解析这种HTML?
由于
答案 0 :(得分:5)
您用来解析的确切电话是什么?如果您不想要任何错误/警告,我建议组合这些选项:
HTML_PARSE_RECOVER|HTML_PARSE_NOERROR|HTML_PARSE_NOWARNING