标签: c++ html-parsing
我想从文本中删除所有html标记。 但我不想使用任何dom库解析整个文档,因为创建一个dom树将是性能的开销,因为我不关心结构。
有没有快速有效的方法将html转换为纯文本?
答案 0 :(得分:6)
如果您不需要内存中的DOM树,请使用带有SAX接口的解析器。但请注意,某些真实HTML可能需要容错解析。