应用错误收集

Web爬网程序的BFS或DFS？

时间：2012-08-02 10:05:59

标签： search-engine web-crawler depth-first-search breadth-first-search

我的任务是为搜索引擎创建一个简单的网络抓取工具。现在，爬虫应该如何准确地映射网络？按照他找到的第一个链接，永远不会回头，或者像BFS或DFS这样的一些更高级的搜索方法？

1 个答案:

答案 0 :(得分：3)

我确实观察到我对这个问题的回答有点迟，但是，这是一个有趣的讨论。

BFS似乎是一个很好的策略，因为它可以帮助 * 在一定程度上避免连续请求 到单个主机 *。取决于您的域名。您仍然需要处理服务器超时的处理，但DFS肯定会造成一些伤害。同样，在DFS中，您可以拥有循环引用，在无限循环中运行;除非你做出一些明确的安排。

可以有其他更合适的选择，但在DFS和BFS之间，我认为 BFS获胜。