我希望能够在提交PySpark作业时指定--jars PySpark提交选项。但是,不支持此选项。还有其他选择吗?
答案 0 :(得分:1)
感谢您提出此问题,您似乎发现了一个我们尚未连接必要标志的错误;目的是在控制台GUI和insert into outlier_output(departmentname, usercount)
select department as departmentname,count(distinct(uid)) as userscnt
from outlier_report
where department is not null group by department ;
中提供--jars
选项,我们希望能够在几周内在下一个次要版本中部署修复程序。
与此同时,您可以尝试简单地将任何jarfile依赖项转储到主节点和/或工作节点上的gcloud beta dataproc jobs submit pyspark
,可能使用initialization actions在集群部署时自动下载jar文件,然后它将自动在Spark(和Hadoop)作业的类路径上可用。