我有一个程序可以抓取html,特别是来自SEC.gov的季度报告,使用libcurl的WRITEFUNCTION将它们保存在内存中。
我现在想要"通读"报告的HTML ,存储许多(许多)所需的值,基本上是财务表或资产负债表中的任何值。这些将具有识别各种长度的文档中的子串。
以下哪项(如果有)适用:
Boost :: regex - 搜索一组表达式并存储找到它们时找到的下一个值
Libxml ++ (或一些等价物) - 形成一个DOM树并编写一个遍历它的节点的方法,当节点属于某种类型或包含某个字符串时存储数据( "净收入"例如)。
或建议其他一些具有我正在寻找的能力的图书馆或方法论?