在kubernetes的Spark集群上运行本地pyspark脚本

时间:2019-06-23 15:07:47

标签: apache-spark kubernetes pyspark

我在kubernetes上建立了一个Spark集群,并在Spark上运行spark-app.py脚本,我:

  1. 使用spark-app.py脚本构建并推送图像
  2. 在下面运行spark-submit命令
./bin/spark-submit \
    --master k8s://https://<master-ip>:<port> \
    --deploy-mode cluster \
    --name spark-app \
    --conf spark.executor.instances=3 \
    --conf spark.kubernetes.container.image=my-repo/spark-py:v2.4.3 \
    --conf spark.kubernetes.namespace=default \
    --conf spark.kubernetes.authenticate.driver.serviceAccountName=spark \
    --conf spark.kubernetes.container.image.pullPolicy=Always \
    --conf spark.kubernetes.container.image.pullSecrets=<my-secret> \
    --conf spark.kubernetes.pyspark.pythonVersion=3 \
      local:///opt/spark/examples/src/main/python/spark-app.py

但这会花费很多时间,因为每次编辑脚本时,我都必须重建一个新图像。

Q1)如何避免每次仅编辑脚本时重新生成图像?

Q2)有没有一种方法可以使spark-submit接受我计算机中的脚本?

0 个答案:

没有答案