我在哪里运行spark - Standalone,Hadoop或Mesos

时间:2015-07-24 13:51:19

标签: hadoop apache-spark yarn mesos

我正在学习Spark,但如果我必须在Hadoop / Yarn或Mesos上运行spark,我会感到困惑。

如果我在Hadoop / Mesos上运行,是否有任何性能提升?

现在,我在4节点集群上独立运行。

有经验的用户可以在这里提供一些指导吗?

1 个答案:

答案 0 :(得分:4)

根据您的使用案例的详细信息,您可能会发现任何给定配置中的性能与其他配置相比都会上下波动。然而,Hadoop和Mesos为您提供了除性能之外的其他优势。每种情况都有很多,但例如:

Hadoop的

  • HDFS作为弹性分布式文件存储。
  • 使用Hadoop中存在的元数据访问数据集,例如通过HiveContext
  • 将Spark处理与Map-Reduce等其他方法混合使用
  • YARN作为资源管理器为您的任务分配资源

Mesos - Mesos比Hadoop更关注特定角色,即跨机器群管理资源。但是,它在一系列Workload类型中执行此操作。这些可能是数据处理工作,如Spark,Akka中的分布式应用程序,分布式数据库等。如果一台机器发生故障,它可以将任务移动到其他机器上。

我建议观看此视频,我很幸运能够参加此次聚会: https://www.youtube.com/watch?v=gzx4-6RB7Yw

它演示了如何使用Spark,HDFS,Mesos和Docker在亚马逊云计算机集群上进行分布式计算。