应用错误收集

从HTML代码C ++中解析URL

时间：2014-02-16 13:40:00

标签： c++ html parsing network-programming web-crawler

我正在用C ++创建一个简单的Web爬虫。目前，我已经设法从种子URL获取HTML代码，保存在字符串或文本文件中。

如何在HTML中查找并保存我想要继续进行网络抓取的网址？

1 个答案:

答案 0 :(得分：0)

要做到这一点，你需要一个合适的HTML解析器。 Gumbo是一个由Google开源的开源HTML5解析器，您可以使用它来实现类似的内容。