扩展普罗米修斯联邦

时间:2017-06-29 19:53:30

标签: prometheus

我正在尝试确定可以调整什么来更快地完成联邦收集间隔。来自我们的收集器对的联合超过联邦的60刮擦间隔,基于scrape_duration_seconds约为59秒{job =“federation”}

我们在数据中心A内的设置 两个收集器分别指向所有服务器(~1,500)和从两个收集器之一收集的单个联合服务器。收集器的间隔为30秒,联合服务器为60秒。对于我们遇到问题的数据中心,大约有800,000个指标。联合服务器运行6proc,16GB ram和1.6.2版。

-storage.local.target堆大小= 10737418240 -storage.local.num指纹互斥= 8192

我还缺少其他明显的定制吗?我总是可以部署更多的收集器对,但我担心联邦层不能从60个间隔内的单个收集器收集。我们的设计假定每个数据中心(针对1..N环境)使用单个联合服务器,该服务器从多个收集器对进行联合。有没有更好的设计需要考虑?

我已查看过这些链接,但不确定如何继续。 https://prometheus.io/docs/operating/storage/#settings-for-high-numbers-of-time-series https://prometheus.io/docs/operating/storage/#helpful-metrics

enter image description here

1 个答案:

答案 0 :(得分:1)

联合用于聚合统计信息,而不是提取整个Prometheus服务器的内容。您应该将Grafana配置为能够与所有Prometheus服务器通信,并且我建议删除" Prom Federation"您的堆栈中的图层没有添加任何内容 - 请参阅https://www.robustperception.io/federation-what-is-it-good-for/