我已经能够购买4台物理机器来建立一个火花测试集群。数据将存储在cassandra中,计算将使用spark(sql和数据帧)完成。我打算使用mesos,因为作为一名开发人员,我希望尽可能少地进行基础设施工作。
然而,我发现的几乎所有教程都来自mesophere,使用他们的商业 dcos基础设施。我能够配置dcos cli来使用马拉松,但其中一个mesophere支持人员告诉我它可能效果不好。
我能够安装cassandra,但马拉松告诉我它的状态是'不健康'。 Spark甚至没有那么远,Marathon告诉我部署任务失败了,但没有多余的,没有错误信息,没有。
使用mesos是一个坏主意吗?还有其他选择吗?关于如何获得cassandra和spark运行的任何其他资源?我不介意买书。
更新:我在所有四台机器上运行CentOS 7。这些机器有超过20演出的ram,12 cpus和大约一个TB的磁盘。其中一个设置为主节点(运行zookeeper和mesos主站),其余机器是从站/客户端。
答案 0 :(得分:0)
嗯,有一些关于如何安装群集的好文章,比如
很遗憾,您没有提供有关您的环境的详细信息,例如您正在使用的操作系统。
就个人而言,我以完全对接的方式在CoreOS集群上运行Mesos,这意味着Mesos Master和Slaves也在容器中运行。如果您有兴趣,请查看
查看我的systemd
设置以在CoreOS上运行Mesos。
关于Spark,有几种方法可以让它在Mesos上运行。
查看Spark文档得到一个主意。此外,您可以在Docker容器中运行Spark-Jobserver,然后该容器将充当Spark作业的客户端应用程序(使用REST API等)。 Dockerfile /图像在
下可用要将Cassandra作为Mesos上的框架运行,请查看