石墨并非总是在最近5到10分钟内返回

时间:2020-09-17 18:47:12

标签: monitoring metrics graphite graphite-carbon

我们有一个相当大的Graphite设置,该设置曾经是多个Python中继和Carbon缓存。为了简便和性能,现在已将其迁移到Go版本。 我们有接近2M的传入指标(仅Pickle格式)。 通过写入大约100点/更新,我们设法在合理的时间内将数据下载到磁盘。 AWS上的c5.9xlarge(36vCPU和72 GB RAM)上的缓存和Web和具有25k IOPS的EBS存储。 通过Python Graphite-web(最新版本),Gunicorn和NginX进行查询。 9s Memcached查询缓存。 我们还通过从中获取数据来使用该系统进行监视。

有时我们会丢失最新数据,而不仅仅是最后一次测量-而是5到15分钟。 我相信这是仍在缓存中的数据,尚未写入磁盘。我们在Grafana中以及在分析数据的监视系统(仅NULL值)中都看到了这一点。在下一次重新加载时-所有数据都有可能恢复正常。 任何关于这可能是蜜蜂的想法以及如何解决它的想法,因为它触发了我们许多警报系统。 是某处超时吗-我们永远不必等待任何数据。日志记录显示,在大多数情况下,获取查询数据所需的时间不到一毫秒。即使返回空数据。 替代前端? Carbonapi或其他接口(grpc)?是高速缓存(低碳)还是Web前端失败了?

我希望有人可以向我提示正确的方向或分享他们的一些经验。

问候,约翰

0 个答案:

没有答案