拥有更新的sitemap.xml有什么好处?

时间:2009-08-28 17:22:44

标签: web sitemap web-crawler

以下文字来自sitemaps.org。与爬行器完成工作相比,有什么好处呢?

  

站点地图是一种简单的方法   网站管理员通知搜索引擎   关于他们网站上的网页   可用于抓取。在其中   最简单的形式,Sitemap是一种XML   列出网站URL的文件   有关每个的额外元数据   URL(上次更新时,如何   通常它通常会改变,以及如何改变   重要的是,相对于其他人而言   网站中的网址)以便搜索   引擎可以更智能地抓取   该网站。

编辑1:我希望获得足够的好处,以便我能够证明该功能的开发。目前我们的系统没有动态提供站点地图,因此我们必须创建一个带有爬虫的站点地图,这不是一个非常好的过程。

3 个答案:

答案 0 :(得分:1)

抓取工具也是“懒惰的”,因此,如果您为其提供包含所有网站网址的站点地图,则他们更有可能为您网站上的更多网页编制索引。

它们还使您能够确定页面的优先级,以便抓取工具知道他们更改的频率,哪些更重要,以便更新,等等。这样他们就不会浪费时间抓取未更改的页面,丢失那些做的,或索引你不关心的页面(以及你做的页面丢失)。

您还可以使用大量automated tools在线抓取整个网站并生成站点地图。如果您的网站不是太大(少于几千个网址),那么这些网站的效果会非常好。

答案 1 :(得分:0)

好吧,就像该段落所述,站点地图还提供了有关给定网址的元数据,即抓取工具可能无法通过抓取进行纯粹推断。站点地图充当爬网程序的目录,以便它可以确定内容的优先级并索引重要的内容。

答案 2 :(得分:0)

站点地图有助于告知抓取工具哪些页面更重要,以及可以预期更新这些页面的频率。这是仅通过扫描页面本身无法找到的信息。

抓取工具对您网站扫描的页数以及他们关注链接的深度数量有限制。如果你有很多不太相关的页面,同一页面的很多不同的URL,或者需要很多步骤才能到达的页面,那么爬虫程序将在最有趣的页面之前停止。站点地图提供了另一种方法,可以轻松找到最有趣的页面,而无需关注链接和整理重复项。