我正在尝试在pyspark环境中运行脚本,但到目前为止我还没能。我如何在pyspark中运行像python script.py这样的脚本?感谢
答案 0 :(得分:25)
你可以这样做:./bin/spark-submit mypythonfile.py
从Spark 2.0开始,不支持通过pyspark
运行python应用程序。
答案 1 :(得分:16)
pyspark 2.0及更高版本在环境变量PYTHONSTARTUP
中执行脚本文件,因此您可以运行:
PYTHONSTARTUP=code.py pyspark
与spark-submit
回答相比,这对于在使用交互式pyspark shell之前运行初始化代码很有用。
答案 2 :(得分:8)
只需spark-submit mypythonfile.py
即可。
答案 3 :(得分:0)
您可以按以下方式执行“ script.py”
pyspark < script.py
或
# if you want to run pyspark in yarn cluster
pyspark --master yarn < script.py
答案 4 :(得分:0)
Spark环境提供了执行应用程序文件的命令,可以是Scala或Java(需要Jar格式),Python和R编程文件。 命令是
$ spark-submit --master <url> <SCRIPTNAME>.py
。
我正在JDK 1.8版本的Windows 64位体系结构系统中运行spark。
P.S找到我的终端窗口的屏幕截图。 Code snippet
答案 5 :(得分:0)
现有答案是正确的(即使用 spark-submit
),但我们中的一些人可能只想开始使用 pyspark 中的 sparkSession 对象。
所以在要运行的pySpark脚本中首先添加:
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.master('yarn') \
.appName('pythonSpark') \
.enableHiveSupport()
.getOrCreate()
然后使用 spark.conf.set('conf_name', 'conf_value')
设置任何配置,如执行器内核、内存等。