解析HTML以查找特定链接(无关键字)

时间:2010-04-26 12:46:55

标签: c++ html parsing

我之前发过这样的帖子,但我不知道如何回复我原来的问题,因为我只能评论或回答我自己的问题。

无论如何,我需要从一个网站获得4个链接,Windows和Linux的最新稳定构建链接,以及我的C ++应用程序中用于Windows和Linux(总共4个链接)的最新开发构建链接。

我可以使用已经在项目中实现的LibCURL下载页面(http://www.sourcemod.net/snapshots.php),但之后我不确定。我正在寻找解析器,但我想不出我将如何识别链接的链接。显然使用解析器我可以从每个表中获取第一个链接,但这似乎没有效率,只能为我提供指向Windows构建的链接。

看起来我需要的链接将在两个表中排在第四位,但我只是非常熟悉一个很好的方法来解决这个问题,所以任何帮助都会受到赞赏。

2 个答案:

答案 0 :(得分:0)

也许您会找到实际下载的位置http://www.sourcemod.net/smdrop/,更容易解析。

答案 1 :(得分:0)

我对c ++并不太熟悉,但是如果你没有遇到任何更好的解决方案,那么Python的BeautifulSoup对于解析Html非常好,甚至可以很好地处理格式错误的文档。这是一篇关于embedding Python in C/C++的高评价CodeProject文章,声称“这是为那些在C / C ++方面比在Python中更有经验的程序员编写的,本教程采用实用的方法,省略了所有的理论讨论。”

(我没有亲自阅读,正如我所提到的,对C ++并不十分熟悉)