如何为大数据集群分配物理资源?

时间:2016-10-26 09:01:09

标签: hadoop apache-spark yarn hadoop2 bigdata

我有三台服务器,我想在这些服务器上部署Spark Standalone Cluster或Spark on Yarn Cluster。 现在我有一些关于如何为大数据集群分配物理资源的问题。例如,我想知道我是否可以在同一节点上部署Spark Master Process和Spark Worker Process。为什么呢?

服务器详细信息:

CPU Cores: 24
Memory: 128GB

我需要你的帮助。感谢。

1 个答案:

答案 0 :(得分:0)

当然可以,只需将主人与主人一起放入奴隶。在我的测试服务器上,我有这样的配置,主机也是工作节点,并且有一个仅限工作的节点。一切都很好

但是要注意,那就是工作人员会失败并导致重大问题(即系统重启),那么你就会遇到问题,因为主人也会受到影响。

编辑: 问题编辑后的更多信息:)如果您使用YARN(如建议的那样),您可以使用动态资源分配。 Here是关于它的一些幻灯片和来自MapR的here文章。这是一个很长的话题,如何在给定的情况下正确配置内存,我认为这些资源会给你很多的知识

顺便说一句。如果你已经安装了Hadoop集群,也许可以尝试YARN模式;)但它不属于问题主题