我使用Datadog和NewRelic来尝试追踪似乎在随机时间发生的奇怪行为。最近我注意到我在NewRelic中的应用程序的REDIS延迟出现了大幅增长。我将Datadog添加到Redis服务器,看到这些命令/秒的峰值从大约0.5-2k到大于40-60k!随之而来的是带宽和负载的飙升,但只有非常思想的CPU变化。
当这些事件发生时,GoogleAnalytics(GA)实际上显示出相当缓慢的一天。事实上,今天的整体应用程序负载比下图所示的日期高出约2-3倍,但今天已经具有完美的REDIS性能,没有任何延迟/命令峰值。
是否可能是机器人/抓取工具击中过时的缓存,导致一次性插入大块数据?我的应用程序在很大程度上依赖于外部API,它在响应时间上偶尔会出现问题,但为什么缓慢的API调用会导致redis调用速度变慢或redis命令出现大量峰值?