使用数据挖掘/统计信息进行日志监控

时间:2009-02-18 11:39:39

标签: statistics data-mining

我有一大堆日志文件,我想要表征或可能添加某种决策树或某种分析。但我不知道究竟是什么。您对日志文件,大量日志文件进行了哪些分析。

例如,到目前为止,我正在收集对给定日志文件的特定页面发出的请求数。

Servlet = 60次请求 Servlet2 = 70个请求等

我猜对了,只过滤最热门的请求。此外,在2小时的时间内可能会执行60次请求。 60/160分钟。

1 个答案:

答案 0 :(得分:3)

决定要做什么分析取决于您根据该分析做出的决定。例如,我当前监视应用程序报告的异常日志(客户端应用程序中的所有异常都与服务器一起记录),以确定应该调查哪些高优先级客户端错误。我还使用日志搜索软件来监控我们的服务器软件报告的任何异常情况,这可能需要立即进行调查。除了一切产生的日志之外,我还使用一些监控软件来跟踪我们的Web服务器和数据库服务器的使用情况,该服务器在数据库中记录使用情况统计信息等。最终目的是预测未来的使用水平,并根据需要购买更多硬件以满足需求。

我一直在使用的两个(免费)工具是:

Hyperic用于监控,设置起来非常简单,并且可能能够开始记录您可能感兴趣的大量数据,即Web服务器上的每秒请求数。

Splunk用于搜索日志文件,它非常易于设置和使用,并为您提供优秀的日志文件搜索功能。如果您现在正在使用日志文件并且没有尝试过splunk我肯定会推荐它。在我们的主要生产服务器上使用它时,我注意到了几个100%cpu的时刻,所以最近停止在那台机器上运行它,只是一个警告。

不确定您的目标是什么,我的一直非常关注寻找我应该了解的任何错误,并规划未来的容量需求。如果你对后者感兴趣,我也会推荐The Art of Capacity Planning