了解google上次抓取时的情况

时间:2009-12-01 18:24:52

标签: unix scripting logging googlebot

我想知道当前谷歌的大量网页的缓存副本是怎样的。我想我需要

  1. 查看日志中的IP,
  2. 检查以查找用户代理“googlebot”,然后
  3. 导出一个列表,其中显示每个页面以及上次访问的时间。
  4. 我想这可能是一个每周运行的cron工作。如果这是对的,我该如何编写脚本?如果这是错的,那会是更好的方法吗?

3 个答案:

答案 0 :(得分:3)

Google已通过Google SiteMaps提供此信息。我在过去的三年里一直使用它 - 效果很好。

将您的网站添加到SiteMaps并在您的网络服务器上放置您网站的生成的SiteMap XML(Google提供此免费的网站),然后让Google完成剩下的工作。 SiteMaps中有一个名为 Crawl Stats 的部分,可以为您提供所需的内容。

  

获取Google对您网站的看法并诊断问题

     

了解Google如何抓取您的内容并将其编入索引   网站并了解具体问题   我们正在访问它。

     

发现您的链接和查询流量

     

查看,分类和下载   内部和外部的综合数据   使用新链接指向您网站的外部链接   链接报告工具。找出哪个   Google搜索查询可带来流量   您的网站,并确切了解用户的方式   到达那里。

     

分享有关您网站的信息

     

告诉我们您的网页   站点地图:哪些是最多的   对你很重要,他们多久一次   更改。您也可以告诉我们如何   您想要我们索引的网址   出现。

答案 1 :(得分:2)

没有必要,您可以拨打服务电话查询缓存页面,即搜索cache:stackoverflow.com,其中包括时间和日期。如果有一个api调用更直接地执行此操作,我不会感到惊讶(更新:Google Search API)。

答案 2 :(得分:0)

也可以通过mypagerank.net或Google工具栏等网站免费找到最后一个Googlebot Access。