基于实时应用的YARN和SPARK处理引擎有什么区别?

时间:2015-04-10 18:39:13

标签: hadoop apache-spark bigdata yarn

我了解YARN和SPARK。但我想知道何时需要使用YARN和SPARK处理引擎。有什么不同的案例研究,我可以确定纱线和火花之间的区别。

2 个答案:

答案 0 :(得分:15)

你不能直接比较Yarn和Spark。 Yarn是一个分布式容器管理器,例如Mesos,而Spark是一个数据处理工具。 Spark可以在Yarn上运行,就像Hadoop Map Reduce可以在Yarn上运行一样。事实上,当Spark不是时,Hadoop Map Reduce是Yarn附带的一个功能。

如果您的意思是比较Map Reduce和Spark,我建议您阅读this other answer

答案 1 :(得分:4)

Apache Spark可以在YARN,MESOS或StandAlone模式下运行。

Spark在StandAlone模式下 - 这意味着所有的资源管理和作业调度都是内置的Spark。

Spark in YARN - YARN是MRV2中引入的资源管理器,它不仅支持本机hadoop,还支持Spark,Kafka,Elastic Search和其他自定义应用程序。

Spark Mesos - Spark也支持Mesos,这是另一种类型的资源管理器。

Spark对YARN的优势

  • YARN允许您在YARN上运行的所有框架之间动态共享和集中配置相同的群集资源池。
  • YARN调度程序可用于火花作业,只有YARN,Spark可以针对Kerberized Hadoop集群运行,并在其进程之间使用安全身份验证。

Link for more documentation on YARN, Spark.

我们可以这样说,如果你想构建一个独立于一切的小而简单的集群。如果你想使用现有的hadoop集群,请选择YARN / Mesos。