我搜索了一个HTML解析器并提出了tidy。 问题是,现在我已经安装了它,我无法找到如何剥离所有HTML标签(如果可能的话还有javascript函数)。 示例代码将html转换为XHTML,我开始觉得我已经下载了一个不合适的软件包,无法找到解释它的任何文档/手册。
关于如何用整洁来做这件事的任何建议?
编辑:
据我所知,整理是一个HTML解析器,我想要实现的只是简单的测试,即:<h3>Test</h3>
将进入Test
答案 0 :(得分:0)
Tidy基本上用于清理HTML页面。您可以将Tidy的输出发送到libxml ++来解析生成的XHTML。
有关使用libxml ++的工作示例,请查看此链接 Parsing a XHTML using libxml++您可以使用3个解析器中的一个解析字符串,只获取没有任何标记的文本。