Question

当Google为特定的html网页编制索引时，如何找到（任何语言，但如果是Python更好的话）？

理想情况下，我会有一个要检查的网址列表。

我已经尝试过WayBack机器，但它没有我需要的大部分页面。此外，如果任何人都可以建议API从文本中提取多种语言的日期。

Answer 1

您可以使用此模式访问网页的缓存版本。

http://webcache.googleusercontent.com/search?q=cache:<URL>

比如说，你可以看到我的博客datafireball.com的缓存版本，如你所见，它被编入索引20141020, 23:33:30，strip=将避免加载javascript，css..etc 。为了获得索引是索引的时间，您可以使用一些浏览器自动化工具，如Selenium或Phantomjs ...等来获取页面。

enter image description here

谷歌什么时候索引一个页面？

1 个答案: