谷歌什么时候索引一个页面?

时间:2014-11-21 01:31:05

标签: google-app-engine python-2.7 information-extraction

当Google为特定的html网页编制索引时,如何找到(任何语言,但如果是Python更好的话)?

理想情况下,我会有一个要检查的网址列表。

我已经尝试过WayBack机器,但它没有我需要的大部分页面。此外,如果任何人都可以建议API从文本中提取多种语言的日期。

1 个答案:

答案 0 :(得分:0)

您可以使用此模式访问网页的缓存版本。

http://webcache.googleusercontent.com/search?q=cache:<URL>

比如说,你可以看到我的博客datafireball.com的缓存版本,如你所见,它被编入索引20141020, 23:33:30strip=将避免加载javascript,css..etc 。为了获得索引是索引的时间,您可以使用一些浏览器自动化工具,如Selenium或Phantomjs ...等来获取页面。

enter image description here