传递gcloud dataproc作业的属性参数提交pyspark

时间:2017-12-18 12:51:21

标签: mongodb pyspark google-cloud-platform google-cloud-dataproc

我正在尝试通过命令行向Google Cloud dataproc提交pyspark作业 这些是我的论点;

gcloud dataproc jobs submit pyspark --cluster mongo-load --properties org.mongodb.spark:mongo-spark-connector_2.11:2.2.0 mongo_load.py

我经常遇到异常

--properties: Bad syntax for dict arg: [org.mongodb.spark:mongo-spark-connector_2.11:2.2.0]

我尝试了谷歌显示here中的一些转义选项,但似乎没有任何效果。

2 个答案:

答案 0 :(得分:1)

想通了我只需传递

spark.jars.packages=org.mongodb.spark:mongo-spark-connector_2.11:2.2.0

答案 1 :(得分:0)

除了@Marlon Gray 的回答之外,如果您需要传递多个包,则需要对 spark.jars.packages 字符串进行转义,例如

--properties=^#^spark.jars.packages=mavencoordinate1,mavencoordinate2

请查看https://cloud.google.com/sdk/gcloud/reference/topic/escaping了解更多详情。