我有SPA,里面有很多图片。我想将这些图像暴露给搜索引擎。所以我想创建只有机器人才能看到的“特殊”页面。页面将包含有关图像的元数据。
是否可以让googlebot抓取一页但将其编入另一页?
答案 0 :(得分:4)
您可以设置一个只有谷歌机器人才能看到的页面。
您基本上设置了一个服务器,它像客户端的浏览器一样,并且“位于”提供HTML和资产(JS / CSS /图像)的“真实服务器”和Crawler Bot之间。此服务器称为预渲染服务器,它只将数据发送给僵尸程序,而不是发送给真正的客户端,因为它有自己的映射使用它的URL。网址与您网页的任何网址一样,但最后可能会添加一些特殊内容(可能)。
预呈现服务器就像浏览器一样,因此解析了Javascript,并且只有在页面准备就绪时(您需要在您的某处小心地触发ready
命令)在调用了所有ajax并且内容已经“安定下来”之后的代码,并且只有在调用该命令时,预呈现服务器才会将内容提供给机器人,因此机器人会看到一个“静态页面”,“用勺子喂它”。
为了使您的AJAX应用程序可以抓取,您的网站需要 遵守新协议。该协议基于以下内容:
该网站采用AJAX抓取方案。
对于每个动态生成内容的网址,您的服务器都会提供一个HTML快照,即用户的内容(带有 浏览器)看到了。通常,此类URL将是AJAX URL,即URL 例如,包含哈希片段 www.example.com/index.html#key=value,其中#key = value是哈希值 分段。 HTML快照是页面上显示的所有内容 JavaScript执行完毕后。
- 醇>
搜索引擎会对HTML快照编制索引,并在搜索结果中提供原始的AJAX网址。
这种技术设置起来不是那么容易,但它是可能的。
答案 1 :(得分:2)
是的,可以通过HTTP_USER_AGENT检测Google Bot,但您可能会将Google Ban和PR设置为0。