应用错误收集

规划用于大型cassandra集群监测的石墨组件

时间：2017-10-21 20:43:37

标签： cassandra monitoring graphite

我打算设置80个节点的cassandra集群（当前版本为2.1，但将来会升级到3个）。我已经走了http://graphite.readthedocs.io/en/latest/tools.html，它有石墨支持的工具列表。

我想决定选择哪些工具作为监听器和存储器，以便可以扩展。

作为听众，我应该使用默认碳还是应该选择graphite-ng？

然而作为存储组件，我很困惑，默认耳语是否足够？或者我应该看看ohter选项（如Influxdata，cynite或某些rdms db（postgres / mysql））？

作为gui组件，我已经最终确定使用grafana来实现更好的可视化。

我认为datadog + grafana可以正常工作，但是datadog不是开源的。所以请建议一个可扩展的开放源，最多可以放置100个cassandra节点。

2 个答案:

答案 0 :(得分：1)

我有35个Cassandra节点（不同的簇）被监控，石墨+碳+耳语+ grafana没有任何问题。但我不得不说，用耳语重新配置收集和聚合窗口是一件痛苦的事。

今天有很多替代方案，你可以使用Influxdb（+ telegraf）堆栈。

同样使用datadog你不需要grafana，他们也是一个可视化平台。我不久前曾与它合作，但是他们的插件中的某些指标有一些误导性的名称，而且一些指标只是缺失了。作为这个平台的专业人士，它的安装和使用非常简单。

答案 1 :(得分：1)

我们现在有一个36个节点的cassandra集群（我们有51个，但从那时起迁移了实例类型，因此我们现在需要更少的C *服务器），使用单个石墨服务器进行监控。我们还将数据保存30天，但分辨率为60秒。我们排除了节点间指标（例如，从a到b的开放连接），因为缩放了指标计数，但保留了所有其他指标。这总计约为510k指标，每个耳语文件大小约为500kb =＆gt; 〜250GB。 iostat告诉我，我们已经写出~70k写入/秒的峰值。这一切都在一个AWS i3.2xlarge实例上完成，该实例包括1.9TB nvme实例存储和61GB RAM。为了充分利用这种磁盘类型的功能，我们增加了碳缓存的数量。 CPU使用率非常低（<20％），iowait（<1％）也是如此。

我想我们可以使用不那么强劲的机器，但这为我们提供了很大的扩展空间，我们不断添加新的服务器。对于监控：请准备好AWS将比其他机器更频繁地终止这些机器，因此备份和恢复更可能是常规操作。

我希望这个小小的见解帮助你。