我使用CodeIgniter作为框架在PHP / MySQL中构建了一个照片社区Web应用程序。所有内容都是公开的,因此搜索引擎会定期播放。这正是我想要的,但它有两个不必要的副作用:
关于第二个问题,我正在重写对我的视图计数脚本的调用,只能从javascript调用,这样可以防止搜索引擎的数量增加,对吗?
至于会话表,我的想法是在使用cron之后清理它,以免对性能产生影响。我正在会话表中记录IP和用户代理字符串,所以在我看来黑名单方法最好?如果是这样,最好的方法是什么?是否有一种简单/可重用的方法来确定会话来自搜索引擎?
答案 0 :(得分:1)
答案 1 :(得分:1)
为什么你担心这两种情况?处理爬虫的最佳策略是像对待任何其他用户一样对待它们。
搜索引擎创建的会话与任何其他会话没有什么不同。它们都必须进行垃圾收集,因为您无法假设每个用户在离开您的站点时都会单击“注销”按钮。处理它们的方式与处理任何过期的会话相同。无论如何你必须这样做,那么为什么要花费额外的时间来对待搜索引擎呢?
就搜索引擎递增视图计数器而言,为什么会出现问题?无论如何,“查看计数”是一个错过领先的术语;你真正告诉别人的是页面被请求了多少次。你不能确保一对眼球确实看到了这个页面,而且确实没有合理的方法。对于你“黑名单”的每个机器人,将会有十几个一次性内容刮掉你的内容,而不是提供友好的用户代理字符串。
答案 2 :(得分:0)
使用robots.txt文件准确控制哪些搜索引擎抓取工具可以查看和执行