使用Yarn Cluster设置Apache Spark

时间:2017-12-19 14:12:02

标签: apache-spark bigdata yarn

我想使用apache spark集成Yarn。我在我的电脑上安装了spark,jdk和scala。我的数据保存在Cassandra数据库中。我还为奴隶创建了另一个服务器。

Spark版本 - 2.1.0 Scala版本 - 2.9.2 master(我的电脑)(IP:192。 .01) 从服务器(IP:192。 .02)

Spark和scala也安装在我的从服务器上。我是否需要在主设备或从设备上安装更多设备?如果全部安装,那么我应该如何配置使用spark集成YARN。

实际上我正在使用集群管理器(YARN)创建一个字数统计程序。我的目标是在我的申请中使用YARN。你可以给我任何更多的建议。请帮忙..

1 个答案:

答案 0 :(得分:1)

  • 您需要安装Hadoop 2x才能合并纱线。这就是 link
  • 接下来,在群集模式$ ./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster [options] <app jar> [app options]中使用纱线启动火花。您可以参考here