你怎么称呼蜘蛛技术,蜘蛛访问第一级的所有链接,以及第二级的所有链接

时间:2009-10-28 09:31:50

标签: web-crawler

我忘了网页蜘蛛的名字

首先访问它在第一级看到的所有链接。 然后访问它在第二级看到的所有链接。 等等...

这个技术有一个名字....我忘了......

无论如何,这是非常详尽的,显然效率低下。有没有更好的办法 ?

我记得在夏天读一篇关于有效抓取网页的文章(DSL或类似的东西,我不知道它代表什么)....总之,它讨论了“确定哪些URL可能包含相关信息和哪个URL将被忽略,如注册,新帐户链接..等等“

我没有太详细地阅读它,如果这些东西响铃,请发布一个链接。

2 个答案:

答案 0 :(得分:2)

听起来像'广度优先搜索',而不是'深度优先搜索'。在第一个中,您可以横向检查所有选项,而在后者中,您可以在每个路径上尽可能深地钻取。那是AI的术语,不确定它是否与网络工具设计师一起流行。无论如何,BFS消耗大量内存但通常在你希望找到“最佳结果”时使用,在某些情况下(在你的术语中)可能在最浅层,而DFS往往使用更少的内存,但可能会错过更好的解决方案。

如果您只是尝试编目所有链接,请使用DFS。如果您尝试在最浅的链接深度找到某些内容,请使用BFS。

答案 1 :(得分:1)

广度优先搜索。

在图论中,广度优先搜索(BFS)是一种在搜索主要限于两个操作时在图中搜索的策略:(a)访问和检查图的节点; (b)获得访问以访问与当前访问的节点相邻的节点的访问权。 BFS从根节点开始并检查所有相邻节点。然后,对于每个这些邻居节点依次检查它们未被访问的邻居节点,等等。将它与深度优先搜索进行比较。

http://en.wikipedia.org/wiki/Breadth-first_search