标签: c++ html-parsing
我正在寻找一种解决方案,用于解析C ++中可能格式错误的HTML,类似于Python中的Beautiful Soup。
通常情况下,只使用XML解析器就可以了,但在这种情况下,特定的HTML不是有效的XML / XHTML,无法正确解析。
存在用于此的库/工具吗?
答案 0 :(得分:6)
您可以使用HTMLTidy将HTML转换为有效的XML,然后使用任何可用的C ++ XML解析器
答案 1 :(得分:2)
根据文档LibXml2能够解析HTML4。
答案 2 :(得分:-1)
我使用了Xerces并推荐它用于C ++。它有DOM和SAX模型。