GCP Dataproc:直接在纱线群集上使用Spark

时间:2019-01-22 13:58:25

标签: google-cloud-dataproc

我正在尝试最小化代码中的更改,因此我想知道是否可以通过以下方式从个人PC / VM提交火花流作业:

spark-submit --class path.to.your.Class --master yarn --deploy-mode client \
    [options] <app jar> [app options]

不使用GCP SDK。

我还必须指定一个包含配置文件HADOOP_CONF_DIR的目录,该目录可以从Ambari下载。 有没有办法做同样的事情?

谢谢

1 个答案:

答案 0 :(得分:1)

通常很难将外部计算机设置为YARN客户端节点,并且很难与Dataproc配合使用。

在评论中,您提到您真正想要做的是

  1. 将Spark作业提交到Dataproc集群。
  2. 在每个“ batchFinish”(StreamingListener.onBatchCompleted?)上运行本地脚本。
    • 该脚本具有依赖性,这意味着它无法在Dataproc主节点内部运行。

同样,在Dataproc集群的外部 节点上配置客户端节点并使其与spark-submit一起使用不会直接起作用。但是,如果可以配置网络,使Spark驱动程序(在Dataproc中运行)可以访问 您需要运行的服务/脚本,然后在需要时调用它。

如果在可以访问Dataproc群集网络的VM上运行服务,则您的Spark驱动程序应该可以访问该服务。