应用错误收集

使用C ++提取HTML标记

时间：2014-04-23 18:15:24

标签： c++ html xml regex parsing

我目前正在使用C ++编写的搜索引擎抓取工具，抓取工具将获取HTML文件列表，需要提取HTML标记并将其放入文件中。

我听说过使用XML解析器但我无法弄清楚如何将HTML文件转换为XHTML，除此之外，转换为XHTML在性能方面也很昂贵。而且C ++中的html解析器几乎不存在。

第三种方法是使用boost regex从HTML文件中提取这些标签，但我需要提取所有标签（p，h1，h2，a ......），这样做有点太长了

如何在C ++中获取HTML标记的其他解决方案？

2 个答案:

答案 0 :(得分：-1)

尝试使用xml解析器解析它，我通常使用RapidXML检查它here

您将获得HTML文件的所有标签和属性。

答案 1 :(得分：-1)

您可以使用HTML parser中的libxml。