有没有一种有效的方法来为抓取机器人提供特定的缩略图?

时间:2012-11-06 16:26:31

标签: html .htaccess css-sprites

我的网站使用一些积极的缓存技术将请求降至最低,其中包括:

  • .htaccess重定向到缓存的HTML文件;
  • 自动将内容图像合并到CSS精灵中。

这适用于人流量,但是当在Facebook,Pinterest,Google +,Reddit等上发布文章时,机器人无法找到合适的缩略图,因为页面图像都是大精灵JPEG。

一个解决方案是.htaccess规则在机器人发出请求时绕过缓存。优选地,无需具体命名每个可能的bot用户代理。我不确定如何做到这一点。

另一种解决方案是在机器人可以下载的每个页面上嵌入一个好的缩略图,但真正的网络浏览器不会。任何想法如何实现?

欢迎提出其他建议。如果所有其他方法都失败了,我将修改我的脚本以从自动保护程序中排除每个帖子的第一张图像,但这将有效地使我过度工作的服务器必须容纳的图像请求数量增加一倍。

1 个答案:

答案 0 :(得分:1)

无论你想解决什么问题,向机器人展示与人类不同的东西是一种非常糟糕的方法。谷歌有时甚至会以较低的搜索排名来惩罚这样做的网站。更好的方法是访问每个机器人的网站,看看是否有办法告诉机器人显示与该页面相关的图像。

例如,Facebook在您的html的head中接受以下元标记,告诉它与您的网页相关的图片:

<meta property="og:image" content="[url to the image]">