黑名单搜索引擎的最佳方法是什么?

时间:2011-03-18 14:35:35

标签: php seo search-engine

我使用CodeIgniter作为框架在PHP / MySQL中构建了一个照片社区Web应用程序。所有内容都是公开的,因此搜索引擎会定期播放。这正是我想要的,但它有两个不必要的副作用:

  • 每次访问都会在我的会话表中创建一个会话。
  • 搜索引擎每次访问照片页面都会增加查看计数器

关于第二个问题,我正在重写对我的视图计数脚本的调用,只能从javascript调用,这样可以防止搜索引擎的数量增加,对吗?

至于会话表,我的想法是在使用cron之后清理它,以免对性能产生影响。我正在会话表中记录IP和用户代理字符串,所以在我看来黑名单方法最好?如果是这样,最好的方法是什么?是否有一种简单/可重用的方法来确定会话来自搜索引擎?

3 个答案:

答案 0 :(得分:1)

  • 识别主要搜索引擎(Hint
  • 根据预编译列表检查访问者(上图)
  • 不要在比赛中启动会话/增加计数器

编辑:

List of User-Agents

答案 1 :(得分:1)

为什么你担心这两种情况?处理爬虫的最佳策略是像对待任何其他用户一样对待它们。

搜索引擎创建的会话与任何其他会话没有什么不同。它们都必须进行垃圾收集,因为您无法假设每个用户在离开您的站点时都会单击“注销”按钮。处理它们的方式与处理任何过期的会话相同。无论如何你必须这样做,那么为什么要花费额外的时间来对待搜索引擎呢?

就搜索引擎递增视图计数器而言,为什么会出现问题?无论如何,“查看计数”是一个错过领先的术语;你真正告诉别人的是页面被请求了多少次。你不能确保一对眼球确实看到了这个页面,而且确实没有合理的方法。对于你“黑名单”的每个机器人,将会有十几个一次性内容刮掉你的内容,而不是提供友好的用户代理字符串。

答案 2 :(得分:0)

使用robots.txt文件准确控制哪些搜索引擎抓取工具可以查看和执行