应用错误收集

我计划将我的开发集群用于基础架构监控应用程序的趋势分析，我计划使用Spark来分析故障趋势，使用Cassandra来存储传入数据和分析数据。考虑从大约25000台机器/服务器（可能在不同服务器上设置相同的应用程序）收集性能矩阵。我期待每台机器的性能矩阵大小为2MB /秒，我打算将其推入具有时间戳的Cassandra表，服务器作为主键和应用程序以及一些重要的矩阵作为聚类键。我将在存储的信息之上运行Spark工作，以进行性能矩阵故障趋势分析。

考虑到上述情况，我需要多少个节点（机器）以及CPU和内存方面的配置才能启动我的集群。

Cassandra需要一个精心规划的数据模型才能让事情顺利进行。在你拥有一个大型数据集之前，非常值得花时间在这个阶段规划一些事情，并且发现你可能会更好地重新安排数据模型！

＆＃34; general＆＃34;经验法则是你将模型塑造成查询，同时注意避免像大行，大删除，批量等类似的行为，这些行为可能会产生很大的性能损失。

文档为planning和testing提供了一个良好的开端，您可能会发现它很有用。我还建议使用Cassandra stress工具。您可以使用它将性能测试推送到Cassandra集群中，以检查延迟和任何性能问题。您也可以使用自己的架构，我个人认为这种架构非常有用！

如果您使用的是基于云的硬件（如AWS），则可以相对轻松地向上/向下扩展，看看什么最适合您。你不需要在Cassandra上扔大硬件，它比水平更容易水平扩展。

我假设您正在将数据拉回到分析方面的单独火花群中，因此这些节点将运行简单的Cassandra（较少的硬件规格）。但是，如果您使用的是Datastax Enterprise版本（可以在spark＆＃34; mode＆＃34;中运行节点），那么您将需要更强大的硬件以及火花驱动程序，执行程序等所需的额外负载。另一个好的文档链接是DSE hardware recommendations

具有6到7个节点硬件配置的分布式Spark和HDFS群集

1 个答案: