我正在使用dataproc在spark上提交作业。但是,在提交火花时,非火花参数将被读取为火花参数!
在运行特定作业时,我收到以下错误/警告。
Warning: Ignoring non-spark config property: dataproc:dataproc.conscrypt.provider.enable=false
gcloud dataproc jobs submit spark \
--cluster my-cluster \
--region us-east1 \
--properties dataproc:dataproc.conscrypt.provider.enable=false,spark.executor.extraJavaOptions=$SPARK_CONF,spark.executor.memory=${MEMORY}G,spark.executor.cores=$total_cores \
--class com.sample.run \
--jars gs://jars/jobs.jar \
-- 1000
我想知道当前格式有什么问题。预先感谢。
答案 0 :(得分:3)
spark-submit
只是默默地忽略了不是以spark开头的conf选项。
多数民众赞成在此属性的原因是它被忽略了。
--properties dataproc:dataproc.conscrypt.provider.enable=false
您应该以{{1}}属性名称传递的任何属性
这只是警告。
为什么需要此属性:
Conscrypt安全提供者已从 默认为可选的安全提供程序。做出此更改是由于 与某些工作负载不兼容。 Conscrypt提供程序将是 随Cloud Dataproc 1.2中的版本重新启用为默认设置 未来。同时,您可以重新启用Conscrypt提供程序 通过指定此Cloud Dataproc属性创建集群时:
spark.
--properties
创建群集时必须指定此属性,因为这是群集属性,而不是spark属性。 (意味着spark框架无法理解这一点,只是被忽略了。)
示例用法:
dataproc:dataproc.conscrypt.provider.enable=true
然后像这样开始工作...
gcloud beta dataproc clusters create my-test
--project my-project
--subnet prod-sub-1
--zone southamerica-east1-a
--region=southamerica-east1
--master-machine-type n1-standard-4
--master-boot-disk-size 40
--num-workers 5
--worker-machine-type n1-standard-4
--worker-boot-disk-size 20
--image-version 1.2
--tags internal,ssh,http-server,https-server
--properties dataproc:dataproc.conscrypt.provider.enable=false
--format=json
--max-idle=10m