Question

我在kubernetes上建立了一个Spark集群，并在Spark上运行spark-app.py脚本，我：

使用spark-app.py脚本构建并推送图像
在下面运行spark-submit命令

./bin/spark-submit \
    --master k8s://https://<master-ip>:<port> \
    --deploy-mode cluster \
    --name spark-app \
    --conf spark.executor.instances=3 \
    --conf spark.kubernetes.container.image=my-repo/spark-py:v2.4.3 \
    --conf spark.kubernetes.namespace=default \
    --conf spark.kubernetes.authenticate.driver.serviceAccountName=spark \
    --conf spark.kubernetes.container.image.pullPolicy=Always \
    --conf spark.kubernetes.container.image.pullSecrets=<my-secret> \
    --conf spark.kubernetes.pyspark.pythonVersion=3 \
      local:///opt/spark/examples/src/main/python/spark-app.py

但这会花费很多时间，因为每次编辑脚本时，我都必须重建一个新图像。

Q1）如何避免每次仅编辑脚本时重新生成图像？

Q2）有没有一种方法可以使spark-submit接受我计算机中的脚本？

在kubernetes的Spark集群上运行本地pyspark脚本

0 个答案: