家酿网络爬虫的问题

时间:2009-01-02 09:00:05

标签: c++ web-applications

我在C ++中构建了一个webcrawler。我使用的是名为URLdownloadToFile()的API。

  1. 是否有其他可以使用的API?
  2. API URLdownloadToFile()适用于某些网址,并且对其他一些网址效果不佳?请提出一些我可以解决这个问题的方法吗?
  3. 谢谢, Dnyaneshwari C.

3 个答案:

答案 0 :(得分:2)

您可能需要查看libcurl,它应该允许您使用各种协议提取内容。这也应该支持代理等,这可能会给你带来特定网址的问题。也可以看看; http://curl.haxx.se/

答案 1 :(得分:0)

您可能希望查看WinINet这是一个简单的C API,用于与HTTP网络堆栈的高级接口。另一种选择是WinHttp,这种选择稍微复杂一些,需要你处理COM。

答案 2 :(得分:0)

除非有特别的理由坚持使用c ++,否则最好切换到Python并使用BeautifulSoup。我使用过curl,这很好,但我的所有网页内容都是用Python完成的