我需要编写一个从网页上获取数据的c ++程序(我有这个网址)。
基本上,网页包含一个分布在多个页面上的巨大表格(虽然是下一个按钮)。
我需要获取整个表,然后获取每一行并解析它(表有大约10列)。在经过一些小的处理之后,每个都必须以类似的数据格式放入csv文件中。
任何人都可以提出最佳方法。
我需要在c ++中这样做,我想知道我使用的库是什么。需要在Windows中完成,但我不介意使用平台独立/依赖的东西。
提前致谢。
2 个答案:
答案 0 :(得分:2)
让libcurl为您下载。它很快,您不必直接处理HTTP。
有许多库用于在C ++中解析XML。见this。
请大家帮忙,不要尝试用正则表达式解析HTML。你将召唤Cthulhu。
答案 1 :(得分:0)
我知道这可能不是您正在寻找的确切答案,但因为它是一个选项......
您可以使用原始套接字生成基本HTTP GET,然后您将收到HTML格式的表格。然后,您只需解析它(使用XML解析器或手动查找表或特定ID)并获得结果。
我知道这不是最好的和“随时可用”的解决方案,但它仍然有用。