发送作业到火花集群

时间:2017-08-02 10:44:36

标签: apache-spark intellij-idea cassandra

我在独立模式下使用cassandra作为数据集群设置了一个spark集群。另一方面,我使用IntelliJ IDEA编写要发送给工作人员执行的火花集群的驱动程序代码。

我想知道是否可以从intellij(在我的本地机器中)执行代码到远程集群中,或者我必须创建一个.jar文件并使用sopark-submit将其部署到工作者? / p>

我只是在寻找确认信息,因为我在完成所有设置时遇到了问题,需要减少可能性。

提前致谢。

2 个答案:

答案 0 :(得分:1)

您必须在Spark-cluster上执行代码并将此群集的配置设置为SparkContext,这样您就可以在Intellij中编写代码并将代码部署到Spark将执行它的远程群集中,我建议您阅读有关在群集上提交应用程序的spec。 启动应用程序的配置可以是下一步:

./bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master spark://${yourip}:7077 \
  --executor-memory 5G \
  /path/to/examples.jar \
  1000

如果您不想直接与群集建立联系,可以制作jar文件并将其部署在群集上,而无需通过spark-submit进行连接 - 此video-tutorial说明如何制作它。 HTH

答案 1 :(得分:1)

我猜您正在尝试使用IntelliJ调试驱动程序。

您可以在客户端模式下“spakr-submit”应用程序,然后使用IntelliJ IDE连接到驱动程序。