我正在尝试构建一个Java / Scala应用程序,它将向远程spark集群提交spark代码。我正在使用Apache Toree即Spark Kernal来实现这一目标。我已成功连接并使用Spark on YARN启动了Apache Toree服务。
我需要编写一个Java / Scala客户端来连接这个运行的Apache Toree服务,以便交互式提交spark代码。
要编写客户,请参阅项目中的以下示例
现在我的问题是 - 如果Spark Kernel / Apache Toree在其中一个具有IP地址10.22.34.10:8042或http://example.com:8042的边缘节点上运行,我在哪里可以在客户端代码中指定此地址,以便客户端代码与远程Spark Kernel / Apache Toree服务建立连接,并将spark代码提交给正在运行的Spark Kernel执行?
简而言之 - 我们如何在客户端和Apache Toree服务/ Spark内核之间建立连接,即我的意思是客户端如何知道提交spark代码的位置? - 我无法在示例中找到配置(上面的链接)。
PS:我没有在我的用例中的任何地方使用Jupyter - 在Spark-Yarn上简单运行Toree服务并在Java / scala中编写客户端来提交/执行Spark代码。如果我错过了一些重要的内容作为我的用例配置,请告诉我。
用于连接到正在运行的Toree服务的工作Java / Scala示例代码的链接/示例将受到高度赞赏,该服务可以提交并执行spark代码。谢谢!