具有6到7个节点硬件配置的分布式Spark和HDFS群集

时间:2017-07-19 11:56:14

标签: hadoop apache-spark matrix cassandra hardware-infrastructure

我计划将我的开发集群用于基础架构监控应用程序的趋势分析,我计划使用Spark来分析故障趋势,使用Cassandra来存储传入数据和分析数据。 考虑从大约25000台机器/服务器(可能在不同服务器上设置相同的应用程序)收集性能矩阵。我期待每台机器的性能矩阵大小为2MB /秒,我打算将其推入具有时间戳的Cassandra表,服务器作为主键和应用程序以及一些重要的矩阵作为聚类键。我将在存储的信息之上运行Spark工作,以进行性能矩阵故障趋势分析。

考虑到上述情况,我需要多少个节点(机器)以及CPU和内存方面的配置才能启动我的集群。

1 个答案:

答案 0 :(得分:2)

Cassandra需要一个精心规划的数据模型才能让事情顺利进行。在你拥有一个大型数据集之前,非常值得花时间在这个阶段规划一些事情,并且发现你可能会更好地重新安排数据模型!

" general"经验法则是你将模型塑造成查询,同时注意避免像大行,大删除,批量等类似的行为,这些行为可能会产生很大的性能损失。

文档为planningtesting提供了一个良好的开端,您可能会发现它很有用。我还建议使用Cassandra stress工具。您可以使用它将性能测试推送到Cassandra集群中,以检查延迟和任何性能问题。您也可以使用自己的架构,我个人认为这种架构非常有用!

如果您使用的是基于云的硬件(如AWS),则可以相对轻松地向上/向下扩展,看看什么最适合您。你不需要在Cassandra上扔大硬件,它比水平更容易水平扩展。

我假设您正在将数据拉回到分析方面的单独火花群中,因此这些节点将运行简单的Cassandra(较少的硬件规格)。但是,如果您使用的是Datastax Enterprise版本(可以在spark" mode"中运行节点),那么您将需要更强大的硬件以及火花驱动程序,执行程序等所需的额外负载。另一个好的文档链接是DSE hardware recommendations