在不解析c ++的情况下将html转换为纯文本?

时间:2011-02-20 13:39:36

标签: c++ html-parsing

我想从文本中删除所有html标记。 但我不想使用任何dom库解析整个文档,因为创建一个dom树将是性能的开销,因为我不关心结构。

有没有快速有效的方法将html转换为纯文本?

1 个答案:

答案 0 :(得分:6)

如果您不需要内存中的DOM树,请使用带有SAX接口的解析器。但请注意,某些真实HTML可能需要容错解析。