未在Spark提交上读取Dataproc参数

时间:2019-06-10 18:15:28

标签: scala apache-spark gcloud google-cloud-dataproc spark-submit

我正在使用dataproc在spark上提交作业。但是,在提交火花时,非火花参数将被读取为火花参数!

在运行特定作业时,我收到以下错误/警告。

Warning: Ignoring non-spark config property: dataproc:dataproc.conscrypt.provider.enable=false

gcloud dataproc jobs submit spark \
--cluster my-cluster \
--region us-east1 \
--properties dataproc:dataproc.conscrypt.provider.enable=false,spark.executor.extraJavaOptions=$SPARK_CONF,spark.executor.memory=${MEMORY}G,spark.executor.cores=$total_cores \
--class com.sample.run \
--jars gs://jars/jobs.jar \
-- 1000

我想知道当前格式有什么问题。预先感谢。

1 个答案:

答案 0 :(得分:3)

spark-submit只是默默地忽略了不是以spark开头的conf选项。 多数民众赞成在此属性的原因是它被忽略了。

--properties dataproc:dataproc.conscrypt.provider.enable=false

您应该以{{1​​}}属性名称传递的任何属性

这只是警告。

为什么需要此属性:

  

Conscrypt安全提供者已从   默认为可选的安全提供程序。做出此更改是由于   与某些工作负载不兼容。 Conscrypt提供程序将是   随Cloud Dataproc 1.2中的版本重新启用为默认设置   未来。同时,您可以重新启用Conscrypt提供程序   通过指定此Cloud Dataproc属性创建集群时:

spark. --properties 创建群集时必须指定此属性,因为这是群集属性,而不是spark属性。 (意味着spark框架无法理解这一点,只是被忽略了。)

示例用法:

dataproc:dataproc.conscrypt.provider.enable=true

然后像这样开始工作...

gcloud beta dataproc clusters create my-test
--project my-project
--subnet prod-sub-1
--zone southamerica-east1-a
--region=southamerica-east1
--master-machine-type n1-standard-4
--master-boot-disk-size 40
--num-workers 5
--worker-machine-type n1-standard-4
--worker-boot-disk-size 20
--image-version 1.2
--tags internal,ssh,http-server,https-server
--properties dataproc:dataproc.conscrypt.provider.enable=false
--format=json
--max-idle=10m