我们正在将少量ZIP文件传递到Spark-Submit
,下面的示例为--py-files
。
spark-submit --master yarn \
--name Application \
--deploy-mode cluster \
--driver-memory 3g \
--py-files "/<PATH>/Specific_App.zip","/<PATH>/Utilities.zip"
在运行Spark Application时,我的理解是ZIP文件在运行期间被解压缩以访问Python文件(模块)。 现在我对此有几个疑问...
Utilities.zip -> parent/child1/child2/utilities/
Specific_App.zip -> parent/child1/child2/Specific_App/
在这种情况下,当解压缩ZIP文件时会出现问题,例如,Specific_App.zip被解压缩后,如果之前解压缩了Utilities.zip,则文件夹结构parent / child1 / child2将已经可用。
我收到“找不到模块”错误,并看到导入的模块在Utilities.zip中的正确路径中。
请告知我是否需要更多信息。