带有部署模式集群的pyspark中的多个sparksession

时间:2019-02-13 10:21:16

标签: apache-spark pyspark

我有2个不同的py文件,用于初始化spark上下文。 在a.py中说

            sc = SparkSession.builder.appName("test").getOrCreate()
            df = sc.createDataFrame(<some function>)
            df.rdd.foreach(test_handler)

在b.py中,我有

class ParquetHandler():

    def __init__(self):
        print 'Entering parquet Handler for DF'
        self.spark =SparkSession.builder.appName("test").getOrCreate()

b.py位于zip中。 当我在部署模式群集主控纱线中运行代码时,它在b.py中失败,并显示以下错误:

Could not find valid SPARK_HOME while searching ['/disk1/hadoop-swap/yarn/local/usercache/clsadmin/appcache/application_1549902894489_0214', '/disk3/hadoop-swap/yarn/local/usercache/clsadmin/filecache/974/pyspark.zip/pyspark']

我用来执行spark -submit的命令是这样的:

spark-submit --master yarn --deploy-mode cluster --py-files test.zip  a.py

0 个答案:

没有答案