Question

我正在尝试最小化代码中的更改，因此我想知道是否可以通过以下方式从个人PC / VM提交火花流作业：

spark-submit --class path.to.your.Class --master yarn --deploy-mode client \
    [options] <app jar> [app options]

不使用GCP SDK。

我还必须指定一个包含配置文件HADOOP_CONF_DIR的目录，该目录可以从Ambari下载。有没有办法做同样的事情？

谢谢

Answer 1

通常很难将外部计算机设置为YARN客户端节点，并且很难与Dataproc配合使用。

在评论中，您提到您真正想要做的是

将Spark作业提交到Dataproc集群。
在每个“ batchFinish”（StreamingListener.onBatchCompleted？）上运行本地脚本。
- 该脚本具有依赖性，这意味着它无法在Dataproc主节点内部运行。

同样，在Dataproc集群的外部节点上配置客户端节点并使其与spark-submit一起使用不会直接起作用。但是，如果可以配置网络，使Spark驱动程序（在Dataproc中运行）可以访问您需要运行的服务/脚本，然后在需要时调用它。

如果在可以访问Dataproc群集网络的VM上运行服务，则您的Spark驱动程序应该可以访问该服务。