使用Spark --jars选项将PySpark作业提交到集群

时间:2015-09-28 09:26:30

标签: google-cloud-dataproc

我希望能够在提交PySpark作业时指定--jars PySpark提交选项。但是,不支持此选项。还有其他选择吗?

1 个答案:

答案 0 :(得分:1)

感谢您提出此问题,您似乎发现了一个我们尚未连接必要标志的错误;目的是在控制台GUI和insert into outlier_output(departmentname, usercount) select department as departmentname,count(distinct(uid)) as userscnt from outlier_report where department is not null group by department ; 中提供--jars选项,我们希望能够在几周内在下一个次要版本中部署修复程序。

与此同时,您可以尝试简单地将任何jarfile依赖项转储到主节点和/或工作节点上的gcloud beta dataproc jobs submit pyspark,可能使用initialization actions在集群部署时自动下载jar文件,然后它将自动在Spark(和Hadoop)作业的类路径上可用。