抓取工具/搜索引擎如何遍历网络?

时间:2012-06-22 20:14:10

标签: web-crawler google-crawlers

商业搜索引擎的抓取工具如何遍历网络: “识别种子页面并通过连接的链接查找其他页面” 要么 “索引网站wwwroot目录下的每个文件。”

在以后的选项中,搜索引擎甚至应该索引任何其他页面都没有引用的内容?

1 个答案:

答案 0 :(得分:1)

必须存在引用。它可以是

  • 允许进行索引的常规HTML href
  • sitemaps.xml中的链接
  • robots.txt中的链接允许使用抓取工具
  • 网站管理员在其搜索引擎后台提供的参考资料

它可以是任何其他链接。