应用错误收集

你怎么称呼蜘蛛技术，蜘蛛访问第一级的所有链接，以及第二级的所有链接

时间：2009-10-28 09:31:50

标签： web-crawler

我忘了网页蜘蛛的名字

首先访问它在第一级看到的所有链接。然后访问它在第二级看到的所有链接。等等...

这个技术有一个名字....我忘了......

无论如何，这是非常详尽的，显然效率低下。有没有更好的办法？

我记得在夏天读一篇关于有效抓取网页的文章（DSL或类似的东西，我不知道它代表什么）....总之，它讨论了“确定哪些URL可能包含相关信息和哪个URL将被忽略，如注册，新帐户链接..等等“

我没有太详细地阅读它，如果这些东西响铃，请发布一个链接。

2 个答案:

答案 0 :(得分：2)

听起来像'广度优先搜索'，而不是'深度优先搜索'。在第一个中，您可以横向检查所有选项，而在后者中，您可以在每个路径上尽可能深地钻取。那是AI的术语，不确定它是否与网络工具设计师一起流行。无论如何，BFS消耗大量内存但通常在你希望找到“最佳结果”时使用，在某些情况下（在你的术语中）可能在最浅层，而DFS往往使用更少的内存，但可能会错过更好的解决方案。

如果您只是尝试编目所有链接，请使用DFS。如果您尝试在最浅的链接深度找到某些内容，请使用BFS。

答案 1 :(得分：1)

广度优先搜索。

在图论中，广度优先搜索（BFS）是一种在搜索主要限于两个操作时在图中搜索的策略：（a）访问和检查图的节点; （b）获得访问以访问与当前访问的节点相邻的节点的访问权。 BFS从根节点开始并检查所有相邻节点。然后，对于每个这些邻居节点依次检查它们未被访问的邻居节点，等等。将它与深度优先搜索进行比较。

http://en.wikipedia.org/wiki/Breadth-first_search