分析分布式系统

时间:2013-04-10 20:14:31

标签: performance profiling distributed distributed-computing hpc

我想知道可能的方法来追踪分布式系统中的性能瓶颈。我知道像X-Trace及其后代(例如Dapper)这样的工具,但我对方法而不是特定工具更感兴趣。

换句话说,鉴于分布式系统没有任何明显的瓶颈,您如何研究和改善其性能?

2 个答案:

答案 0 :(得分:3)

我使用的方法有pro和con。 专家是它的工作原理 - 它发现的问题是,当它们被修复时,会产生很好的快速性能。 这是一个很好的手工工作。

我甚至写了一本书,并包括了这个方法。 工作是收集带时间戳的事件日志,并将它们合并到一个共同的时间线中。 然后仔细检查它,通过异步代理网络跟踪相关消息的流程。 您正在寻找的是不必要的消息周期,或者不一定必须发生的延迟。 例如,在查看此图片时,由于任务“将状态发布到DB”,正在延迟收到消息。当理解这一点时,发布实际上可以在一个单独的线程上完成。

enter image description here

答案 1 :(得分:0)

老实说,这是一个很好的问题,关于什么是最好的方法还没有达成共识。最基本的方法之一是日志记录,您基本上只将一堆系统事件转储到文件中,就可以解析这些日志以找出事件之间的时间间隔,以弄清它们花费的时间。另一种方法是跟踪(由Xtrace使用)。在跟踪中,您跟踪请求的生命周期。例如,如果您向使用微服务体系结构的服务发送请求,则在通过系统微服务时,您将跟踪该请求的线程,进程ID和延迟。

棘手的部分是弄清楚在跟踪请求时要跟踪什么,这将取决于您的分布式系统要完成的工作。例如,性能的一个明显指标是延迟,因此您将测量请求在每个服务上花费的时间。另一个有趣的指标是争用,因此您可以在请求通过系统时测量CPU中的争用。这些配置文件工具中的许多问题之一是,它们为您提供了系统或请求的总体指标,但是当您要查找性能问题时,您需要弄清楚请求是否是异常值。因此,必须将一个请求的等待时间,争用和内存消耗与系统中的其他类似请求进行比较,以判断它是否异常。