libXML轻松解析HTML

时间:2010-09-17 19:20:55

标签: iphone libxml2

我正在尝试从HTML页面中抓取一些内容。我正在使用libxml2和htmlReadMemory来获取xmlDocPtr。 HTML很简单,但是有问题。它基本上如下:

<tr><td><tr><td>Some content</td></tr></td></tr>

libxml不喜欢嵌套的tr,tds。它一直给我以下错误:

HTML parser error : Unexpected end tag : td
      </TD>
           ^
HTML parser error : Unexpected end tag : tr
    </TR>

我使用以下选项:HTML_PARSE_RECOVER。

此时我没有做任何事情允许libxml解析HTML因为这个。我无法更改HTML,因为我无法访问它。

任何人都有任何线索如何让libxml解析这种HTML?

由于

1 个答案:

答案 0 :(得分:5)

您用来解析的确切电话是什么?如果您不想要任何错误/警告,我建议组合这些选项:

HTML_PARSE_RECOVER|HTML_PARSE_NOERROR|HTML_PARSE_NOWARNING