如何在PySpark中运行脚本

时间:2016-10-13 19:00:46

标签: python apache-spark pyspark

我正在尝试在pyspark环境中运行脚本,但到目前为止我还没能。我如何在pyspark中运行像python script.py这样的脚本?感谢

6 个答案:

答案 0 :(得分:25)

你可以这样做:./bin/spark-submit mypythonfile.py

从Spark 2.0开始,不支持通过pyspark运行python应用程序。

答案 1 :(得分:16)

pyspark 2.0及更高版本在环境变量PYTHONSTARTUP中执行脚本文件,因此您可以运行:

PYTHONSTARTUP=code.py pyspark

spark-submit回答相比,这对于在使用交互式pyspark shell之前运行初始化代码很有用。

答案 2 :(得分:8)

只需spark-submit mypythonfile.py即可。

答案 3 :(得分:0)

您可以按以下方式执行“ script.py”

pyspark < script.py

# if you want to run pyspark in yarn cluster
pyspark --master yarn < script.py

答案 4 :(得分:0)

Spark环境提供了执行应用程序文件的命令,可以是Scala或Java(需要Jar格式),Python和R编程文件。 命令是

$ spark-submit --master <url> <SCRIPTNAME>.py

我正在JDK 1.8版本的Windows 64位体系结构系统中运行spark。

P.S找到我的终端窗口的屏幕截图。 Code snippet

答案 5 :(得分:0)

现有答案是正确的(即使用 spark-submit),但我们中的一些人可能只想开始使用 pyspark 中的 sparkSession 对象。

所以在要运行的pySpark脚本中首先添加:

from pyspark.sql import SparkSession
spark = SparkSession.builder \
    .master('yarn') \
    .appName('pythonSpark') \
    .enableHiveSupport()
    .getOrCreate()

然后使用 spark.conf.set('conf_name', 'conf_value') 设置任何配置,如执行器内核、内存等。