应用错误收集

我正在使用Spark来使用MLLIB训练GBT。对于这个任务，我很困惑，如果我应该使用 - master local [4] 选择具有32个内核的1个强大节点，在火花本地模式下使用100GB RAM，或者使用具有8个内核的4个节点的集群，群集独立模式下每个20GB。哪个会完成手头的任务更快？为什么？

使用 - master local [4] 是否实际创建了与群集模式一样多的执行程序/工作程序？

我知道在集群模式下，我可以选择更好的资源管理器，例如YARN和MESOS，这样可以带来一个好处，但我只想比较本地和集群独立模式的性能指标。

spark local和spark cluster模式之间的性能差异

0 个答案: