由于网站切换到HTTPS,因此在抓取链接上应该有Googlebot双重抓取 - 因为有额外的跃点,从HTTP重定向到HTTPS。它应该是相当大的计算能力,这是必需的。
我正在考虑,Googlebot是否真的实现了双倍的支持,或者它有任何提示来识别HTTPS并直接转到它而不会触发重定向来节省额外的跳数?
答案 0 :(得分:1)
目前Googlebot不会存储HSTS,也不会查看预加载列表。本期讨论了这个问题:https://github.com/chromium/hstspreload.org/issues/67
说实话,跟下重定向的计算开销与下载页面所需的所有资源然后准确地渲染和索引它的计算成本相比是微不足道的。重定向是Web的标准部分,爬虫可以很好地处理它们。
此外,网站将遵循链接,包括HTML的HEAD部分中的站点地图和规范网址。他们不只是随机访问他们不了解的网站并抓取HTTP。因此,如果站点的任何地方都使用HTTPS,那么无论如何都应该很少抓取HTTP URL。
最后,这个问题可能更适合https://webmasters.stackexchange.com而不是Stack Overflow。