应用错误收集

免责声明：：请告诉我这个问题是否太广泛了，我将尽力缩小此范围。

我们有一个Heroku应用程序，它正在运行2个Web 1X dynos。该基础架构已经运行了9个月。

但是，在过去的几周中，我们出现了几集，其中应用程序的响应时间猛增了大约一个小时，然后我们又没有采取任何措施就恢复了正常运行。

在下面的图片上，您可以找到昨天下午发生的这些“事件”之一中的Heroku指标摘录。

如您所见，响应时间在增加，最终，几乎所有对服务器的请求都会超时。活动期间，甚至无法加载此应用程序上托管的我们网站的主页。在大多数情况下，我们会获得“应用程序错误” Heroku页面。

我看到的是：

通过多种方法（从界面，命令行或通过我们的Gitlab存储库触发自动部署）重新启动测功器没有效果。

我不太确定如何解释这些指标，以及确保这种情况不会再次发生的解决方案。所以我的问题是：我应该去哪里？是否有一些有关如何调查Heroku应用程序崩溃的文档？