标签: c++ html parsing network-programming web-crawler
我正在用C ++创建一个简单的Web爬虫。目前,我已经设法从种子URL获取HTML代码,保存在字符串或文本文件中。
如何在HTML中查找并保存我想要继续进行网络抓取的网址?
答案 0 :(得分:0)
要做到这一点,你需要一个合适的HTML解析器。 Gumbo是一个由Google开源的开源HTML5解析器,您可以使用它来实现类似的内容。