用于从网页读取表格的c ++程序

时间:2011-04-19 17:07:38

标签: c++

我需要编写一个从网页上获取数据的c ++程序(我有这个网址)。 基本上,网页包含一个分布在多个页面上的巨大表格(虽然是下一个按钮)。

我需要获取整个表,然后获取每一行并解析它(表有大约10列)。在经过一些小的处理之后,每个都必须以类似的数据格式放入csv文件中。

任何人都可以提出最佳方法。 我需要在c ++中这样做,我想知道我使用的库是什么。需要在Windows中完成,但我不介意使用平台独立/依赖的东西。

提前致谢。

2 个答案:

答案 0 :(得分:2)

libcurl为您下载。它很快,您不必直接处理HTTP。

有许多库用于在C ++中解析XML。见this

请大家帮忙,不要尝试用正则表达式解析HTML。你将召唤Cthulhu

答案 1 :(得分:0)

我知道这可能不是您正在寻找的确切答案,但因为它是一个选项......

您可以使用原始套接字生成基本HTTP GET,然后您将收到HTML格式的表格。然后,您只需解析它(使用XML解析器或手动查找表或特定ID)并获得结果。

我知道这不是最好的和“随时可用”的解决方案,但它仍然有用。