应用错误收集

如何使用整洁删除所有HTML标记

时间：2014-12-03 19:39:15

标签： html c++ c tidy

我搜索了一个HTML解析器并提出了tidy。问题是，现在我已经安装了它，我无法找到如何剥离所有HTML标签（如果可能的话还有javascript函数）。示例代码将html转换为XHTML，我开始觉得我已经下载了一个不合适的软件包，无法找到解释它的任何文档/手册。

关于如何用整洁来做这件事的任何建议？

编辑：据我所知，整理是一个HTML解析器，我想要实现的只是简单的测试，即：<h3>Test</h3>将进入Test

1 个答案:

答案 0 :(得分：0)

Tidy基本上用于清理HTML页面。您可以将Tidy的输出发送到libxml ++来解析生成的XHTML。

有关使用libxml ++的工作示例，请查看此链接 Parsing a XHTML using libxml++您可以使用3个解析器中的一个解析字符串，只获取没有任何标记的文本。