我正在使用Spark来使用MLLIB训练GBT。对于这个任务,我很困惑,如果我应该使用 - master local [4] 选择具有32个内核的1个强大节点,在火花本地模式下使用100GB RAM,或者使用具有8个内核的4个节点的集群,群集独立模式下每个20GB。哪个会完成手头的任务更快?为什么?
使用 - master local [4] 是否实际创建了与群集模式一样多的执行程序/工作程序?
我知道在集群模式下,我可以选择更好的资源管理器,例如YARN和MESOS,这样可以带来一个好处,但我只想比较本地和集群独立模式的性能指标。