我的主页上有指向a.html和b.html页面的链接。在这两个页面的同一目录中,我有 c.html 和 d.html 页面,其中未与任何其他页面链接。
我的问题是网络抓手是否也将c.html和d.html 编入索引,因为它们位于目录中?或者他们只关注从主页开始的链接并仅索引主页加上页面a和b?感谢。
答案 0 :(得分:2)
大多数网络抓取工具(特别是Google的抓取工具)都是专有程序,因此您无法确切了解它们在细节方面的工作方式。
网页抓取工具的细节非常复杂。据传谷歌的爬虫(和索引器)是一个超过700兆字节的二进制可执行文件(在GCC峰会上,谷歌人说他们正在编译那个大小的程序,我猜它是他们的爬虫)。
理论上,抓取工具会遵循链接。但你不掌握它们。例如,某些公共邮件存档(甚至是您的Gmail帐户,对于Google)可能会指向您的c.html
...即使您的主网页没有指向它。
答案 1 :(得分:2)
网页抓取工具只知道链接,因此如果世界上没有人有链接到网页c.html和d.html,那么抓取工具找到它们的可能性非常接近0。
让我们看看抓取工具如何找到它们:
这假设抓取工具“很好”并且抓取的时间足够长,可以访问包含指向c / d.html网页的链接的网页。