Question

我制作了一个分析文件数据的spark应用程序。由于输入文件数据大小可能很大，因此不足以独立运行我的应用程序。再用一台物理机器，我该如何为它构建架构呢？

我考虑将mesos用于集群管理器，但在hdfs中使用相当不错的东西。有没有办法让它没有hdfs（用于共享文件数据）？

Answer 1

Spark保持联盟cluster modes。纱线，Mesos和独立。您可以从独立模式开始，这意味着您可以使用群集文件系统。

如果您在Amazon EC2上运行，您可以参考following article以使用自动加载Spark群集的Spark内置脚本。

如果您在本地环境中运行，则在独立模式下运行的方式如下：

- 启动独立主人

with maxi as (
select RateId, 
max(cast(ispremium as integer)) ispremium
from test0713 f1
group by RateId
)
select f1.dealid, f2.* 
from test0713 f1 inner join maxi f2 on f1.RateId=f2.RateId

- 主人将为自己打印出一个spark：// HOST：PORT URL。对于群集中的每个工作者（计算机），请使用以下命令中的URL：

./sbin/start-master.sh

- 为了验证工作人员是否已添加到群集中，您可以在主计算机上引用以下URL：http://localhost:8080并获取Spark UI，其中显示有关群集及其工作人员的更多信息。< / p>

还有更多参数可供使用。有关详细信息，请参阅此documentation

希望我能帮到你！：）

为集群创造火花环境

1 个答案: