以下文字来自sitemaps.org。与爬行器完成工作相比,有什么好处呢?
站点地图是一种简单的方法 网站管理员通知搜索引擎 关于他们网站上的网页 可用于抓取。在其中 最简单的形式,Sitemap是一种XML 列出网站URL的文件 有关每个的额外元数据 URL(上次更新时,如何 通常它通常会改变,以及如何改变 重要的是,相对于其他人而言 网站中的网址)以便搜索 引擎可以更智能地抓取 该网站。
编辑1:我希望获得足够的好处,以便我能够证明该功能的开发。目前我们的系统没有动态提供站点地图,因此我们必须创建一个带有爬虫的站点地图,这不是一个非常好的过程。
答案 0 :(得分:1)
抓取工具也是“懒惰的”,因此,如果您为其提供包含所有网站网址的站点地图,则他们更有可能为您网站上的更多网页编制索引。
它们还使您能够确定页面的优先级,以便抓取工具知道他们更改的频率,哪些更重要,以便更新,等等。这样他们就不会浪费时间抓取未更改的页面,丢失那些做的,或索引你不关心的页面(以及你做的页面丢失)。
您还可以使用大量automated tools在线抓取整个网站并生成站点地图。如果您的网站不是太大(少于几千个网址),那么这些网站的效果会非常好。
答案 1 :(得分:0)
好吧,就像该段落所述,站点地图还提供了有关给定网址的元数据,即抓取工具可能无法通过抓取进行纯粹推断。站点地图充当爬网程序的目录,以便它可以确定内容的优先级并索引重要的内容。
答案 2 :(得分:0)
站点地图有助于告知抓取工具哪些页面更重要,以及可以预期更新这些页面的频率。这是仅通过扫描页面本身无法找到的信息。
抓取工具对您网站扫描的页数以及他们关注链接的深度数量有限制。如果你有很多不太相关的页面,同一页面的很多不同的URL,或者需要很多步骤才能到达的页面,那么爬虫程序将在最有趣的页面之前停止。站点地图提供了另一种方法,可以轻松找到最有趣的页面,而无需关注链接和整理重复项。