应用错误收集

可以防止搜索引擎蜘蛛无限爬行搜索结果上的分页链接？

时间：2008-12-05 18:20:24

标签： seo web-crawler robots.txt nofollow

我们的SEO团队希望向蜘蛛打开我们的主要动态搜索结果页面，并从元标记中删除'nofollow'。通过允许robots.txt中的路径，蜘蛛目前可以访问它，但在元标记中使用'nofollow'子句可以防止蜘蛛超出第一页。

<meta name="robots" content="index,nofollow">

我担心如果我们删除'nofollow'，对我们的搜索系统的影响将是灾难性的，因为蜘蛛会开始爬过结果集中的所有页面。我很感激建议：

1）有没有办法从元标记中删除'nofollow'，但是阻止蜘蛛只关注页面上的某些链接？我读过关于rel =“nofollow”的不同意见，这是一个可行的选择吗？

<a rel="nofollow" href="http://www.mysite.com/paginglink" >Next Page</a>

2）有没有办法控制蜘蛛走多远的“深度”？如果他们打了几页然后停了就不会那么糟糕。

3）我们的搜索结果页面有标准的下一个/上一个链接，这理论上会导致蜘蛛以递归方式将页面打到无穷大，这对SEO的影响是什么？

据我所知，不同的蜘蛛行为不同，但主要关注的是大型玩家，如谷歌，雅虎，MSN。

注意我们的搜索结果页面和分页链接不是机器人友好的，因为它们不会被重写并且具有？name = value查询字符串，但是从我看过的蜘蛛当他们看到'？'时不再只是中止因为结果页面被编入了不错的页面排名。

3 个答案:

答案 0 :(得分：2)

我看过Google索引是一个日历系统，在每个页面上都有相对链接，直到2038年1月19日 - 见http://en.wikipedia.org/wiki/Year_2038_problem）。我们没有注意到我们服务器上的负载，直到它暴露了处理2038年日期的源代码中的错误。

我不了解其他搜索引擎，但Google提供了许多有用的工具来控制googlebot对您的服务器基础架构的影响程度。请参阅http://www.google.com/webmasters/。

网站站长工具中有一个选项可用于设置网站的抓取速度。

答案 1 :(得分：2)

说实话，你正在看 nofollow 错误。机会是搜索蜘蛛已经特别是谷歌，雅虎和MSN搜索nofollow页面，因为他们仍然必须点击这些页面，看看他们是否有无索引。

真正的问题是 nofollow 实际上并不意味着不遵循，只是意味着不会将我的声誉传递给此链接。因此，除非您正在积极地阻止机器人，这听起来并不像您所知，在链接上更改ROBOTS元标记和机器人命令不会影响性能，因为它们已经到达您的网站。要确认这一点，只需查看您的HTTP服务器日志。

所以我的投票是你不会看到删除机器人限制的任何问题。

答案 2 :(得分：1)

谷歌机器人非常聪明，不会遍历动态生成页面的整个数据库，只要URL提示它们是动态的（即.asp或.jsp的文件扩展名等，数字ID作为查询参数）。如果您使用重写规则使您的网址“友好”，那么机器人很难确定它是否是他们正在阅读的静态页面或动态生成的页面。有关动态网址与静态网址的详细信息，请参阅this Google article。

您可能还需要考虑创建一个Google Sitemap，让机器人更好地了解您网站上的哪些网页可以编入索引，哪些网页不能编入索引。