应用错误收集

时间：2012-04-29 06:14:27

标签： web-crawler

我的主页上有指向a.html和b.html页面的链接。在这两个页面的同一目录中，我有 c.html 和 d.html 页面，其中未与任何其他页面链接。

我的问题是网络抓手是否也将c.html和d.html 编入索引，因为它们位于目录中？或者他们只关注从主页开始的链接并仅索引主页加上页面a和b？感谢。

答案 0 :(得分：2)

大多数网络抓取工具（特别是Google的抓取工具）都是专有程序，因此您无法确切了解它们在细节方面的工作方式。

网页抓取工具的细节非常复杂。据传谷歌的爬虫（和索引器）是一个超过700兆字节的二进制可执行文件（在GCC峰会上，谷歌人说他们正在编译那个大小的程序，我猜它是他们的爬虫）。

理论上，抓取工具会遵循链接。但你不掌握它们。例如，某些公共邮件存档（甚至是您的Gmail帐户，对于Google）可能会指向您的c.html ...即使您的主网页没有指向它。

答案 1 :(得分：2)

网页抓取工具只知道链接，因此如果世界上没有人有链接到网页c.html和d.html，那么抓取工具找到它们的可能性非常接近0。

让我们看看抓取工具如何找到它们：

这假设抓取工具“很好”并且抓取的时间足够长，可以访问包含指向c / d.html网页的链接的网页。