应用错误收集

了解google上次抓取时的情况

时间：2009-12-01 18:24:52

标签： unix scripting logging googlebot

我想知道当前谷歌的大量网页的缓存副本是怎样的。我想我需要

查看日志中的IP，
检查以查找用户代理“googlebot”，然后
导出一个列表，其中显示每个页面以及上次访问的时间。

我想这可能是一个每周运行的cron工作。如果这是对的，我该如何编写脚本？如果这是错的，那会是更好的方法吗？

3 个答案:

答案 0 :(得分：3)

Google已通过Google SiteMaps提供此信息。我在过去的三年里一直使用它 - 效果很好。

将您的网站添加到SiteMaps并在您的网络服务器上放置您网站的生成的SiteMap XML（Google提供此免费的网站），然后让Google完成剩下的工作。 SiteMaps中有一个名为 Crawl Stats 的部分，可以为您提供所需的内容。

获取Google对您网站的看法并诊断问题

了解Google如何抓取您的内容并将其编入索引   网站并了解具体问题   我们正在访问它。

发现您的链接和查询流量

查看，分类和下载   内部和外部的综合数据   使用新链接指向您网站的外部链接   链接报告工具。找出哪个   Google搜索查询可带来流量   您的网站，并确切了解用户的方式   到达那里。

分享有关您网站的信息

告诉我们您的网页   站点地图：哪些是最多的   对你很重要，他们多久一次   更改。您也可以告诉我们如何   您想要我们索引的网址   出现。

答案 1 :(得分：2)

没有必要，您可以拨打服务电话查询缓存页面，即搜索cache:stackoverflow.com，其中包括时间和日期。如果有一个api调用更直接地执行此操作，我不会感到惊讶（更新：Google Search API）。

答案 2 :(得分：0)

也可以通过mypagerank.net或Google工具栏等网站免费找到最后一个Googlebot Access。