我正在尝试在hadoop集群上安装apache spark集群。
我正在寻找这方面的最佳实践。我假设spark master需要安装在hadoop namenode和hadoop datanode上的spark slave的同一台机器上。另外,我需要安装scala吗?请指教。
答案 0 :(得分:0)
如果您的Hadoop群集正在运行YARN,请使用纱线模式提交您的应用程序。这将是最简单的方法,除了简单地将Apache Spark发行版下载到客户端计算机之外,不需要安装任何东西。您可以做的另一件事是将Spark程序集部署到HDFS,以便在调用spark-submit时可以使用spark.yarn.jar配置,以便在节点上缓存JAR。
请点击此处查看所有详细信息:http://spark.apache.org/docs/latest/running-on-yarn.html