我处于客户端部署模式,我想提交一个包含tar.gz
的应用程序,其中包含运行时,代码和库。
目的不取决于特定python运行时的spark群集(例如spark群集具有python 3.5版本,而我的代码需要3.7版本)或未安装在群集上的库。
我发现既可以提交python文件,也可以提交.jar
文件。
答案 0 :(得分:0)
使用venv为pyspark作业使用python的虚拟环境版本。
在设置虚拟端口后命令:
spark-submit --master yarn-client --conf spark.pyspark.virtualenv.enabled=true --conf spark.pyspark.virtualenv.type=native --conf spark.pyspark.virtualenv.requirements=<requirementsFile> --conf spark.pyspark.virtualenv.bin.path=<virtualenv_path> --conf spark.pyspark.python=<python_path> <pyspark_file>
答案 1 :(得分:0)
只需在 Python 中使用它
spark.sparkContext.addPyFile("module.zip")
或者你可以这样做
spark-submit --py-files module.zip yourapp.py