我正在尝试最小化代码中的更改,因此我想知道是否可以通过以下方式从个人PC / VM提交火花流作业:
spark-submit --class path.to.your.Class --master yarn --deploy-mode client \
[options] <app jar> [app options]
不使用GCP SDK。
我还必须指定一个包含配置文件HADOOP_CONF_DIR
的目录,该目录可以从Ambari下载。
有没有办法做同样的事情?
谢谢
答案 0 :(得分:1)
通常很难将外部计算机设置为YARN客户端节点,并且很难与Dataproc配合使用。
在评论中,您提到您真正想要做的是
StreamingListener.onBatchCompleted
?)上运行本地脚本。
同样,在Dataproc集群的外部 节点上配置客户端节点并使其与spark-submit
一起使用不会直接起作用。但是,如果可以配置网络,使Spark驱动程序(在Dataproc中运行)可以访问 您需要运行的服务/脚本,然后在需要时调用它。
如果在可以访问Dataproc群集网络的VM上运行服务,则您的Spark驱动程序应该可以访问该服务。