我有2个不同的py文件,用于初始化spark上下文。 在a.py中说
sc = SparkSession.builder.appName("test").getOrCreate()
df = sc.createDataFrame(<some function>)
df.rdd.foreach(test_handler)
在b.py中,我有
class ParquetHandler():
def __init__(self):
print 'Entering parquet Handler for DF'
self.spark =SparkSession.builder.appName("test").getOrCreate()
b.py位于zip中。 当我在部署模式群集主控纱线中运行代码时,它在b.py中失败,并显示以下错误:
Could not find valid SPARK_HOME while searching ['/disk1/hadoop-swap/yarn/local/usercache/clsadmin/appcache/application_1549902894489_0214', '/disk3/hadoop-swap/yarn/local/usercache/clsadmin/filecache/974/pyspark.zip/pyspark']
我用来执行spark -submit的命令是这样的:
spark-submit --master yarn --deploy-mode cluster --py-files test.zip a.py