从HTML代码C ++中解析URL

时间:2014-02-16 13:40:00

标签: c++ html parsing network-programming web-crawler

我正在用C ++创建一个简单的Web爬虫。目前,我已经设法从种子URL获取HTML代码,保存在字符串或文本文件中。

如何在HTML中查找并保存我想要继续进行网络抓取的网址?

1 个答案:

答案 0 :(得分:0)

要做到这一点,你需要一个合适的HTML解析器。 Gumbo是一个由Google开源的开源HTML5解析器,您可以使用它来实现类似的内容。