使用来自Internet的缓存网络数据(Google Cache,Wayback Machine等)

时间:2012-12-01 19:26:49

标签: caching webarchive

我想使用Google缓存访问其他网站的网页,即使没有访问它们。

如果我触发像http://webcache.googleusercontent.com/search?q=cache:<URL without SCHEME>这样的查询,我们就可以获取数据。

我发现/假设以下事项(问题0.如果有任何错误,请更正):

  1. Google可能会也可能不会根据网站的政策缓存信息。
  2. 如果必须运行任何javascript,谷歌将继续访问该网站。
  3. Google只存储了第一个101 KB的文本。
  4. 问题1.我知道Google缓存只会显示最近抓取过的网页但不知道这些数据有多久了?

    问题2.如果我计划在Google缓存中查看我对该网站所做的所有点击(假设该网站已缓存并且我对旧页面很好的话),是否有任何问题?

    问题3. Wayback Machine提供数据,但在抓取和显示数据之间存在巨大延迟。是否有任何目录可以获取最近存档的数据(如Wayback机器和Google缓存)?

2 个答案:

答案 0 :(得分:2)

  

我知道Google缓存只会显示最近抓取过的网页但不知道这些数据有多久了?

使用网址

中的cache:运算符
  

如果我打算在Google缓存中查看我对该网站所做的所有点击(假设该网站已缓存并且我的旧网页很好),是否有任何问题?

所有者可以从缓存中请求removal of content

  

我们是否有可以获取最近归档数据的目录?

使用网址

中的tbs=qdr:查询参数

答案 1 :(得分:0)

对于问题3,虽然过去所有Wayback Machine网络捕获都是6个月的情况,但这在2012年已经变得不真实,而且在2016年非常不真实。我们有大量新鲜内容。< / p>