为集群创造火花环境

时间:2016-07-13 02:43:47

标签: hadoop apache-spark cluster-computing yarn mesos

我制作了一个分析文件数据的spark应用程序。由于输入文件数据大小可能很大,因此不足以独立运行我的应用程序。再用一台物理机器,我该如何为它构建架构呢?

我考虑将mesos用于集群管理器,但在hdfs中使用相当不错的东西。有没有办法让它没有hdfs(用于共享文件数据)?

1 个答案:

答案 0 :(得分:0)

Spark保持联盟cluster modes。纱线,Mesos和独立。您可以从独立模式开始,这意味着您可以使用群集文件系统。

如果您在Amazon EC2上运行,您可以参考following article以使用自动加载Spark群集的Spark内置脚本。

如果您在本地环境中运行,则在独立模式下运行的方式如下:

- 启动独立主人

with maxi as (
select RateId, 
max(cast(ispremium as integer)) ispremium
from test0713 f1
group by RateId
)
select f1.dealid, f2.* 
from test0713 f1 inner join maxi f2 on f1.RateId=f2.RateId

- 主人将为自己打印出一个spark:// HOST:PORT URL。对于群集中的每个工作者(计算机),请使用以下命令中的URL:

./sbin/start-master.sh

- 为了验证工作人员是否已添加到群集中,您可以在主计算机上引用以下URL:http://localhost:8080并获取Spark UI,其中显示有关群集及其工作人员的更多信息。< / p>

还有更多参数可供使用。有关详细信息,请参阅此documentation

希望我能帮到你! :)