应用错误收集

我有一个程序可以抓取html，特别是来自SEC.gov的季度报告，使用libcurl的WRITEFUNCTION将它们保存在内存中。

我现在想要＆＃34;通读＆＃34;报告的HTML ，存储许多（许多）所需的值，基本上是财务表或资产负债表中的任何值。这些将具有识别各种长度的文档中的子串。

以下哪项（如果有）适用：

Boost :: regex - 搜索一组表达式并存储找到它们时找到的下一个值

Libxml ++ （或一些等价物） - 形成一个DOM树并编写一个遍历它的节点的方法，当节点属于某种类型或包含某个字符串时存储数据（＆＃34;净收入＆＃34;例如）。

或建议其他一些具有我正在寻找的能力的图书馆或方法论？