使用C ++提取HTML标记

时间:2014-04-23 18:15:24

标签: c++ html xml regex parsing

我目前正在使用C ++编写的搜索引擎抓取工具,抓取工具将获取HTML文件列表,需要提取HTML标记并将其放入文件中。

我听说过使用XML解析器但我无法弄清楚如何将HTML文件转换为XHTML,除此之外,转换为XHTML在性能方面也很昂贵。而且C ++中的html解析器几乎不存在。

第三种方法是使用boost regex从HTML文件中提取这些标签,但我需要提取所有标签(p,h1,h2,a ......),这样做有点太长了

如何在C ++中获取HTML标记的其他解决方案?

2 个答案:

答案 0 :(得分:-1)

尝试使用xml解析器解析它,我通常使用RapidXML检查它here

您将获得HTML文件的所有标签和属性。

答案 1 :(得分:-1)

您可以使用HTML parser中的libxml