网络抓取工具是否只依赖主页上的链接进行抓取?

时间:2012-04-29 06:14:27

标签: web-crawler

我的主页上有指向a.html和b.html页面的链接。在这两个页面的同一目录中,我有 c.html d.html 页面,其中未与任何其他页面链接

我的问题是网络抓手是否也将c.html和d.html 编入索引,因为它们位于目录中?或者他们只关注从主页开始的链接并仅索引主页加上页面a和b?感谢。

2 个答案:

答案 0 :(得分:2)

大多数网络抓取工具(特别是Google的抓取工具)都是专有程序,因此您无法确切了解它们在细节方面的工作方式。

网页抓取工具的细节非常复杂。据传谷歌的爬虫(和索引器)是一个超过700兆字节的二进制可执行文件(在GCC峰会上,谷歌人说他们正在编译那个大小的程序,我猜它是他们的爬虫)。

理论上,抓取工具会遵循链接。但你不掌握它们。例如,某些公共邮件存档(甚至是您的Gmail帐户,对于Google)可能会指向您的c.html ...即使您的主网页没有指向它。

答案 1 :(得分:2)

网页抓取工具只知道链接,因此如果世界上没有人有链接到网页c.html和d.html,那么抓取工具找到它们的可能性非常接近0。

让我们看看抓取工具如何找到它们:

  1. 您的主页仅指向a.html和b.html,但如果这些网页包含指向c / d.html的链接,则抓取工具最终
  2. 如果上述情况不属实,但您已经给某人链接到c / d.html并且他们在某个网站上发布了这些链接,那么抓取工具最终会找到它们。
  3. 如果您有站点地图,则抓取工具最终可能会找到它们。
  4. 这假设抓取工具“很好”并且抓取的时间足够长,可以访问包含指向c / d.html网页的链接的网页。