Question

我正在尝试从HTML页面中抓取一些内容。我正在使用libxml2和htmlReadMemory来获取xmlDocPtr。 HTML很简单，但是有问题。它基本上如下：

<tr><td><tr><td>Some content</td></tr></td></tr>

libxml不喜欢嵌套的tr，tds。它一直给我以下错误：

HTML parser error : Unexpected end tag : td
      </TD>
           ^
HTML parser error : Unexpected end tag : tr
    </TR>

我使用以下选项：HTML_PARSE_RECOVER。

此时我没有做任何事情允许libxml解析HTML因为这个。我无法更改HTML，因为我无法访问它。

任何人都有任何线索如何让libxml解析这种HTML？

由于

Answer 1

您用来解析的确切电话是什么？如果您不想要任何错误/警告，我建议组合这些选项：

HTML_PARSE_RECOVER|HTML_PARSE_NOERROR|HTML_PARSE_NOWARNING