我有一个以独立模式运行的Spark群集。我目前正在使用Jupyter笔记本调用pyspark执行代码。使用YARN作为集群管理器是否有好处,假设机器没有做任何其他事情?
使用YARN可以获得更好的性能吗?如果是这样,为什么?
非常感谢,
约翰
答案 0 :(得分:0)
考虑到这些要点,我说“是”。
为什么要在YARN上运行?
使用YARN作为Spark的集群管理器比Spark独立版提供了一些好处:
我认为1,2和3适用于上述场景,但不适用于第4点,因为我们假设没有其他框架会使用群集。