如何使用整洁删除所有HTML标记

时间:2014-12-03 19:39:15

标签: html c++ c tidy

我搜索了一个HTML解析器并提出了tidy。 问题是,现在我已经安装了它,我无法找到如何剥离所有HTML标签(如果可能的话还有javascript函数)。 示例代码将html转换为XHTML,我开始觉得我已经下载了一个不合适的软件包,无法找到解释它的任何文档/手册。

关于如何用整洁来做这件事的任何建议?

编辑: 据我所知,整理是一个HTML解析器,我想要实现的只是简单的测试,即:<h3>Test</h3>将进入Test

1 个答案:

答案 0 :(得分:0)

Tidy基本上用于清理HTML页面。您可以将Tidy的输出发送到libxml ++来解析生成的XHTML。

有关使用libxml ++的工作示例,请查看此链接 Parsing a XHTML using libxml++您可以使用3个解析器中的一个解析字符串,只获取没有任何标记的文本。