我在独立模式下使用cassandra作为数据集群设置了一个spark集群。另一方面,我使用IntelliJ IDEA编写要发送给工作人员执行的火花集群的驱动程序代码。
我想知道是否可以从intellij(在我的本地机器中)执行代码到远程集群中,或者我必须创建一个.jar文件并使用sopark-submit将其部署到工作者? / p>
我只是在寻找确认信息,因为我在完成所有设置时遇到了问题,需要减少可能性。
提前致谢。
答案 0 :(得分:1)
您必须在Spark-cluster
上执行代码并将此群集的配置设置为SparkContext
,这样您就可以在Intellij中编写代码并将代码部署到Spark将执行它的远程群集中,我建议您阅读有关在群集上提交应用程序的spec。
启动应用程序的配置可以是下一步:
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://${yourip}:7077 \
--executor-memory 5G \
/path/to/examples.jar \
1000
如果您不想直接与群集建立联系,可以制作jar
文件并将其部署在群集上,而无需通过spark-submit
进行连接 - 此video-tutorial说明如何制作它。
HTH
答案 1 :(得分:1)
我猜您正在尝试使用IntelliJ调试驱动程序。
您可以在客户端模式下“spakr-submit”应用程序,然后使用IntelliJ IDE连接到驱动程序。