我正在学习Spark,但如果我必须在Hadoop / Yarn或Mesos上运行spark,我会感到困惑。
如果我在Hadoop / Mesos上运行,是否有任何性能提升?
现在,我在4节点集群上独立运行。
有经验的用户可以在这里提供一些指导吗?
答案 0 :(得分:4)
根据您的使用案例的详细信息,您可能会发现任何给定配置中的性能与其他配置相比都会上下波动。然而,Hadoop和Mesos为您提供了除性能之外的其他优势。每种情况都有很多,但例如:
Hadoop的
Mesos - Mesos比Hadoop更关注特定角色,即跨机器群管理资源。但是,它在一系列Workload类型中执行此操作。这些可能是数据处理工作,如Spark,Akka中的分布式应用程序,分布式数据库等。如果一台机器发生故障,它可以将任务移动到其他机器上。
我建议观看此视频,我很幸运能够参加此次聚会: https://www.youtube.com/watch?v=gzx4-6RB7Yw
它演示了如何使用Spark,HDFS,Mesos和Docker在亚马逊云计算机集群上进行分布式计算。