我正在编写一组函数来为网站生成站点地图。让我们假设该网站是一个博客。
站点地图的定义是列出网站中可用的页面。对于动态网站,这些页面会定期更改。
使用博客的例子,'pages'将是博客帖子(我猜),因为站点地图中的链接数量有限(现在忽略站点地图索引),这意味着我不能继续添加最新博客帖子的列表,因为在将来的某个时候,将超出限制。
我在上一段中做了两个(非常基本的)假设。他们是:
假设1:
站点地图包含网站中的网页列表。对于像博客这样的动态网站,这些页面将成为博客文章。因此,我可以创建一个站点地图,只列出网站上的博客帖子。 (这听起来像是对我的反馈)
假设2:
由于站点地图文件中的链接数量存在硬限制,我可以施加一些仲裁限制N,并且只是定期生成文件,以列出最新的N个博客帖子(在此阶段,这与a无法区分)进料)
我的问题是:
答案 0 :(得分:1)
假设1是正确的 - 站点地图应该是网站上的页面列表 - 在您的情况下,是的是博客帖子,以及任何其他页面,如联系页面,主页,关于页面,等你有。
是的,它有点像Feed,但Feed通常只有最新的项目,而站点地图应该包含所有内容。
在以下情况下,站点地图特别有用:
- 您的网站包含动态内容。
- 您的网站包含Googlebot在抓取过程中无法轻易发现的网页 - 例如,包含丰富的AJAX或图片的网页。
- 您的网站是新网站,并且几乎没有链接。 (Googlebot通过关注从一个页面到另一个页面的链接来抓取网络,因此如果您的网站链接不好,我们可能很难发现它。)
- 您的网站包含大量内容页面存档,这些内容页面彼此之间没有很好的链接,或根本没有链接。
假设2有点不正确 - 站点地图文件的限制是50,000链接/ 10MB未压缩,如果您认为可能达到该限制,那么首先创建一个仅链接到一个站点地图的站点地图索引文件,然后在你去的时候添加它。
谷歌将接受RSS源作为站点地图,如果这就是你所拥有的,但指出这些通常只包含最新的链接 - 拥有站点地图的价值在于它应该涵盖网站上的所有内容,而不仅仅是最新的项目,可能是最容易被发现的。