Question

我正在使用dataproc在spark上提交作业。但是，在提交火花时，非火花参数将被读取为火花参数！

在运行特定作业时，我收到以下错误/警告。

Warning: Ignoring non-spark config property: dataproc:dataproc.conscrypt.provider.enable=false

gcloud dataproc jobs submit spark \
--cluster my-cluster \
--region us-east1 \
--properties dataproc:dataproc.conscrypt.provider.enable=false,spark.executor.extraJavaOptions=$SPARK_CONF,spark.executor.memory=${MEMORY}G,spark.executor.cores=$total_cores \
--class com.sample.run \
--jars gs://jars/jobs.jar \
-- 1000

我想知道当前格式有什么问题。预先感谢。

Answer 1

spark-submit只是默默地忽略了不是以spark开头的conf选项。多数民众赞成在此属性的原因是它被忽略了。

--properties dataproc:dataproc.conscrypt.provider.enable=false

您应该以{{1}}属性名称传递的任何属性

这只是警告。

为什么需要此属性：

Conscrypt安全提供者已从默认为可选的安全提供程序。做出此更改是由于与某些工作负载不兼容。 Conscrypt提供程序将是随Cloud Dataproc 1.2中的版本重新启用为默认设置未来。同时，您可以重新启用Conscrypt提供程序通过指定此Cloud Dataproc属性创建集群时：

spark. --properties 创建群集时必须指定此属性，因为这是群集属性，而不是spark属性。（意味着spark框架无法理解这一点，只是被忽略了。）

示例用法：

dataproc:dataproc.conscrypt.provider.enable=true

然后像这样开始工作...

gcloud beta dataproc clusters create my-test
--project my-project
--subnet prod-sub-1
--zone southamerica-east1-a
--region=southamerica-east1
--master-machine-type n1-standard-4
--master-boot-disk-size 40
--num-workers 5
--worker-machine-type n1-standard-4
--worker-boot-disk-size 20
--image-version 1.2
--tags internal,ssh,http-server,https-server
--properties dataproc:dataproc.conscrypt.provider.enable=false
--format=json
--max-idle=10m

未在Spark提交上读取Dataproc参数

1 个答案: