如何在pyspark中提交tar.gz文件

时间:2020-09-22 15:14:15

标签: python apache-spark pyspark python-venv

我处于客户端部署模式,我想提交一个包含tar.gz的应用程序,其中包含运行时,代码和库。

目的不取决于特定python运行时的spark群集(例如spark群集具有python 3.5版本,而我的代码需要3.7版本)或未安装在群集上的库。

我发现既可以提交python文件,也可以提交.jar文件。

2 个答案:

答案 0 :(得分:0)

使用venv为pyspark作业使用python的虚拟环境版本。

在设置虚拟端口后命令:

spark-submit --master yarn-client --conf spark.pyspark.virtualenv.enabled=true  --conf spark.pyspark.virtualenv.type=native --conf spark.pyspark.virtualenv.requirements=<requirementsFile> --conf spark.pyspark.virtualenv.bin.path=<virtualenv_path> --conf spark.pyspark.python=<python_path> <pyspark_file>

看看:Using VirtualEnv with PySpark

答案 1 :(得分:0)

只需在 Python 中使用它

spark.sparkContext.addPyFile("module.zip")

或者你可以这样做

spark-submit --py-files module.zip yourapp.py

另见the Spark API here