我试图学习spark
来实现我们的一种算法来增加执行时间。我在本地计算机上下载了预编译版本,以本地模式运行它,我很喜欢创建一些玩具应用程序。
下一步是使用群集模式(此级别为standalone
)。
我发现了许多令人惊叹的教程,讨论如何配置群集以及本地和群集模式之间的区别,这很明显(如果我遇到麻烦,我会回到这里)。
我现在的问题是:
什么物理基础设施用于火花群?
请不要投票,我会解释:目前,我们有2台专用服务器,每台服务器32Go of RAM
和8 CPUS
。
现在我问:
使用spark充分利用这些资源的最佳方法是什么?
哪个更好:
- 使用虚拟化(ESXI / Proxmox)创建将成为我的群集节点的虚拟机?
- 只需使用这两台服务器并创建一个双节点群集吗?