在C ++中解析HTML解析?

时间:2011-01-24 17:23:39

标签: c++ html-parsing

我正在寻找一种解决方案,用于解析C ++中可能格式错误的HTML,类似于Python中的Beautiful Soup

通常情况下,只使用XML解析器就可以了,但在这种情况下,特定的HTML不是有效的XML / XHTML,无法正确解析。

存在用于此的库/工具吗?

3 个答案:

答案 0 :(得分:6)

您可以使用HTMLTidy将HTML转换为有效的XML,然后使用任何可用的C ++ XML解析器

答案 1 :(得分:2)

根据文档LibXml2能够解析HTML4。

答案 2 :(得分:-1)

我使用了Xerces并推荐它用于C ++。它有DOM和SAX模型。