我制作了一个分析文件数据的spark应用程序。由于输入文件数据大小可能很大,因此不足以独立运行我的应用程序。再用一台物理机器,我该如何为它构建架构呢?
我考虑将mesos用于集群管理器,但在hdfs中使用相当不错的东西。有没有办法让它没有hdfs(用于共享文件数据)?
答案 0 :(得分:0)
Spark保持联盟cluster modes。纱线,Mesos和独立。您可以从独立模式开始,这意味着您可以使用群集文件系统。
如果您在Amazon EC2上运行,您可以参考following article以使用自动加载Spark群集的Spark内置脚本。
如果您在本地环境中运行,则在独立模式下运行的方式如下:
- 启动独立主人
with maxi as (
select RateId,
max(cast(ispremium as integer)) ispremium
from test0713 f1
group by RateId
)
select f1.dealid, f2.*
from test0713 f1 inner join maxi f2 on f1.RateId=f2.RateId
- 主人将为自己打印出一个spark:// HOST:PORT URL。对于群集中的每个工作者(计算机),请使用以下命令中的URL:
./sbin/start-master.sh
- 为了验证工作人员是否已添加到群集中,您可以在主计算机上引用以下URL:http://localhost:8080并获取Spark UI,其中显示有关群集及其工作人员的更多信息。< / p>
还有更多参数可供使用。有关详细信息,请参阅此documentation
希望我能帮到你! :)