规划用于大型cassandra集群监测的石墨组件

时间:2017-10-21 20:43:37

标签: cassandra monitoring graphite

我打算设置80个节点的cassandra集群(当前版本为2.1,但将来会升级到3个)。 我已经走了http://graphite.readthedocs.io/en/latest/tools.html,它有石墨支持的工具列表。

我想决定选择哪些工具作为监听器和存储器,以便可以扩展。

作为听众,我应该使用默认碳还是应该选择graphite-ng?

然而作为存储组件,我很困惑,默认耳语是否足够?或者我应该看看ohter选项(如Influxdata,cynite或某些rdms db(postgres / mysql))?

作为gui组件,我已经最终确定使用grafana来实现更好的可视化。

我认为datadog + grafana可以正常工作,但是datadog不是开源的。所以请建议一个可扩展的开放源,最多可以放置100个cassandra节点。

2 个答案:

答案 0 :(得分:1)

我有35个Cassandra节点(不同的簇)被监控,石墨+碳+耳语+ grafana没有任何问题。但我不得不说,用耳语重新配置收集和聚合窗口是一件痛苦的事。

今天有很多替代方案,你可以使用Influxdb(+ telegraf)堆栈。

同样使用datadog你不需要grafana,他们也是一个可视化平台。我不久前曾与它合作,但是他们的插件中的某些指标有一些误导性的名称,而且一些指标只是缺失了。作为这个平台的专业人士,它的安装和使用非常简单。

答案 1 :(得分:1)

我们现在有一个36个节点的cassandra集群(我们有51个,但从那时起迁移了实例类型,因此我们现在需要更少的C *服务器),使用单个石墨服务器进行监控。我们还将数据保存30天,但分辨率为60秒。我们排除了节点间指标(例如,从a到b的开放连接),因为缩放了指标计数,但保留了所有其他指标。这总计约为510k指标,每个耳语文件大小约为500kb =&gt; 〜250GB。 iostat告诉我,我们已经写出~70k写入/秒的峰值。这一切都在一个AWS i3.2xlarge实例上完成,该实例包括1.9TB nvme实例存储和61GB RAM。为了充分利用这种磁盘类型的功能,我们增加了碳缓存的数量。 CPU使用率非常低(<20%),iowait(<1%)也是如此。

我想我们可以使用不那么强劲的机器,但这为我们提供了很大的扩展空间,我们不断添加新的服务器。对于监控:请准备好AWS将比其他机器更频繁地终止这些机器,因此备份和恢复更可能是常规操作。

我希望这个小小的见解帮助你。