应用错误收集

感谢有趣的链接。显然，每个分布式系统都是不同的，每次中断都是独一无二的，因此很难概括。我的一些道路是：

即使是街区最好的家伙也会发生停电...所以你最好为你的计划做好准备。
构建分布式系统很难......所以你需要经验和有经验的朋友。
手动更改是一个常见原因......未在AWS写入中明确说明，但强烈暗示。
中断通常是“紧急”现象，其中一个简单的错误导致许多系统以指数方式增长的方式进行交互。 AWS写入将此称为“风暴”，我在大型分布式系统中目睹了类似的“风暴”。耦合程度和退避参数等简单方面可以使指数级增长或指数衰减的干扰之间产生差异。想想Tacoma Narrows桥 - 也许这个类比是一个延伸，但调整一些简单的参数可以避免破坏性共振。
Netflix Chaos Monkey很有意思。 “精益”人员告诉我们，如果某些事情很困难（比如测试或部署）那么你应该经常这样做，直到它再也不困难了。也许系统故障/弹性是这种方法的下一个前沿。

现在Netflix的Chaos Monkey更有意义。查看NetFlix tech blog