在特定计算机/节点上启动多个spark实例(master或worker)有什么好处吗?
spark standalone documentation并未明确说明在同一节点上启动群集或多个工作人员。它似乎隐含地混淆了一个工人等于一个节点
他们的hardware provisioning页面上写着:
最后请注意,Java VM并不总是表现出超过200 GB的RAM。如果购买RAM大于此值的计算机,则可以为每个节点运行多个工作JVM。在Spark的独立模式下,您可以使用conf / spark-env.sh中的SPARK_WORKER_INSTANCES变量设置每个节点的工作线程数,使用SPARK_WORKER_CORES设置每个工作线程的核心数。
除了处理大量内存或测试群集配置外,每个节点运行多个工作线程有什么好处吗?
答案 0 :(得分:0)
我认为显而易见的好处是在不降低性能的情况下提高每盒硬件的资源利用率。在并行性方面,一个具有多个内核的大型执行程序似乎与具有较少内核的多个执行程序相同。