Web爬网程序的BFS或DFS?

时间:2012-08-02 10:05:59

标签: search-engine web-crawler depth-first-search breadth-first-search

我的任务是为搜索引擎创建一个简单的网络抓取工具。现在,爬虫应该如何准确地映射网络?按照他找到的第一个链接,永远不会回头,或者像BFS或DFS这样的一些更高级的搜索方法?

1 个答案:

答案 0 :(得分:3)

我确实观察到我对这个问题的回答有点迟,但是,这是一个有趣的讨论。

BFS似乎是一个很好的策略,因为它可以帮助 * 在一定程度上避免连续请求 到单个主机 *。取决于您的域名。您仍然需要处理服务器超时的处理,但DFS肯定会造成一些伤害。同样,在DFS中,您可以拥有循环引用在无限循环中运行;除非你做出一些明确的安排。

可以有其他更合适的选择,但在DFS和BFS之间,我认为 BFS获胜。