在大规模分布式系统中记录文件

时间:2008-08-29 21:00:04

标签: distributed-computing hpc

我在网格和HPC空间做了很多工作,我们在分布在数百个(或在某些情况下是数千个)服务器上的系统面临的最大挑战之一是分析日志文件。

当前日志文件本地写入每个刀片上的磁盘,但我们也可以考虑使用UDP Appender发布日志信息并以中心方式收集它。

鉴于目标是能够尽可能接近实时地发现问题,我们该怎么做?

2 个答案:

答案 0 :(得分:3)

首先,使用NTP同步系统中的所有时钟。

其次,如果您在一个位置收集日志(如您提到的UDP appender),请确保日志中有足够的信息来实际提供帮助。我至少会包括生成日志的服务器,发生的时间和消息。如果存在任何类型的事务ID或作业ID类型概念,也包括该。

由于您提到了UDP Appender,我猜您正在使用log4j(或其中一个兄弟姐妹)。 Log4j有一个MDC类,允许通过处理线程传递额外的信息。它可以帮助收集一些额外的信息并传递它。

答案 1 :(得分:0)

您使用的是Apache吗?如果是这样,你可以查看mod_log_spread虽然你可能有太大的基础设施来使其可维护。另一个选择是查看“广播”或“多播”您的日志消息,并让专用的日志服务器订阅这些订阅源并对其进行整理