应用错误收集

在关注指向您网站首页的链接后，主要搜索引擎抓取工具将首先请求名为 robots.txt 的文件，这当然告诉搜索抓取工具网站所有者允许访问哪些页面以及哪些文件或目录不受限制。

如果您没有robots.txt怎么办？几乎总是，爬虫“解释”这意味着没有页面/目录不受限制，它将继续抓取整个站点。那么为什么要包含一个robots.txt文件，如果这是你想要的 - 也就是说，爬虫要为整个网站编制索引？因为如果它在那里，Crawler几乎总是会请求它以便它可以读取它 - 当然这个请求在服务器访问日志文件中显示为一行，这对于Crawler来说是一个非常强大的签名。

其次，良好的服务器访问日志解析器，例如Webalyzer或Awstats。 将用户代理和IP地址与已发布的权威列表进行比较：IAB（http://www.iab.net/sites/spiders/login.php）和user-agents.org发布两个似乎是最广泛用于此目的的列表。前者每年几千美元以上;后者是免费的。

Webalyzer和AWStats都可以做你想要的，虽然我推荐AWStats的原因如下：它最近才更新（大约一年前），而Webalyzer最近一次更新是在八年前。此外，AWStats还有更好的报告模板。 Webalyzer的优点是速度更快。

这是AWStats的示例输出（基于开箱即用的配置），这可能是您正在寻找的：

alt text

用于测量搜索爬虫的Web日志文件分析软件

1 个答案: