石墨显示数据中的滚动间隙

时间:2018-01-25 20:53:47

标签: grafana graphite graphite-carbon

我最近将我们的一个Graphite实例从0.9.2升级到1.1.1,然后遇到了一个问题,由于缺乏更好的词,数据存在滚动性差距。

它正确地显示了最后几分钟(我猜测碳缓存中有什么),并且在过去大约10-15分钟之后,它也正确地显示了所有数据。

然而,在10-15分钟的差距内,它完全是空白。我可以看到Graphite和Grafana的差距。它在重新启动碳缓存后消失,然后在大约一天后回来。

屏幕截图示例:

Example

对于我拥有的大多数图表/仪表板都会发生这种情况。

我花了很多精力优化磁盘IO,所以我怀疑是这种情况 - > Cloudwatch显示100%的磁盘爆发信用。它是一个m3.xlarge实例,具有4个内核和16 GB RAM。交换文件处于临时存储状态,看起来几乎没有使用。

在Whisper后端使用1个Carbon Cache实例。

storage_schemas.conf

[carbon]
pattern = ^carbon\.
retentions = 60:90d
[dumbo]
pattern = ^collectd\.dumbo   # load test containers, we don't care about their data
retentions = 300:1
[collectd]
pattern = ^collectd
retentions = 10s:8h,30s:1d,1m:3d,5m:30d,15m:90d
[statsite]
pattern = ^statsite
retentions = 10s:8h,30s:1d,1m:3d,5m:30d,15m:90d
[default_1min_for_1day]
pattern = .*
retentions = 60s:1d

非默认(或可能相关)carbon.conf设置:

[cache]
MAX_CACHE_SIZE = inf
MAX_UPDATES_PER_SECOND = 100   # was slagging disk write IO until I dropped it down from 500
MAX_CREATES_PER_MINUTE = 50
CACHE_WRITE_STRATEGY = sorted
RELAY_METHOD = rules
DESTINATIONS = 127.0.0.1:2004
MAX_DATAPOINTS_PER_MESSAGE = 500
MAX_QUEUE_SIZE = 10000

石墨local_settings.py

CARBONLINK_TIMEOUT = 10.0
CARBONLINK_QUERY_BULK = True
USE_WORKER_POOL = False

1 个答案:

答案 0 :(得分:1)

我们已经在1.1.1上看到了一些工作负载,您是否可以尝试将碳更新为当前主服务器?如果不是1.1.2将很快发布,这将解决问题。