monitoring - 石墨并非总是在最近5到10分钟内返回

我们有一个相当大的Graphite设置，该设置曾经是多个Python中继和Carbon缓存。为了简便和性能，现在已将其迁移到Go版本。我们有接近2M的传入指标（仅Pickle格式）。通过写入大约100点/更新，我们设法在合理的时间内将数据下载到磁盘。 AWS上的c5.9xlarge（36vCPU和72 GB RAM）上的缓存和Web和具有25k IOPS的EBS存储。通过Python Graphite-web（最新版本），Gunicorn和NginX进行查询。 9s Memcached查询缓存。我们还通过从中获取数据来使用该系统进行监视。

有时我们会丢失最新数据，而不仅仅是最后一次测量-而是5到15分钟。我相信这是仍在缓存中的数据，尚未写入磁盘。我们在Grafana中以及在分析数据的监视系统（仅NULL值）中都看到了这一点。在下一次重新加载时-所有数据都有可能恢复正常。任何关于这可能是蜜蜂的想法以及如何解决它的想法，因为它触发了我们许多警报系统。是某处超时吗-我们永远不必等待任何数据。日志记录显示，在大多数情况下，获取查询数据所需的时间不到一毫秒。即使返回空数据。替代前端？ Carbonapi或其他接口（grpc）？是高速缓存（低碳）还是Web前端失败了？

我希望有人可以向我提示正确的方向或分享他们的一些经验。

问候，约翰

石墨并非总是在最近5到10分钟内返回

0 个答案: