Spark Submit中的--py-files导致找不到模块

时间:2019-06-19 09:46:33

标签: python apache-spark pyspark

我们正在将少量ZIP文件传递到Spark-Submit,下面的示例为--py-files

spark-submit --master yarn \
--name Application \
--deploy-mode cluster \
--driver-memory 3g \
--py-files "/<PATH>/Specific_App.zip","/<PATH>/Utilities.zip"

在运行Spark Application时,我的理解是ZIP文件在运行期间被解压缩以访问Python文件(模块)。 现在我对此有几个疑问...

  • ZIP文件是否已解压缩并保存在 MEMORY
  • 如何知道Spark应用程序中文件是否正确解压缩
  • 文件的解压缩是否创建一个与ZIP文件同名的父文件夹
  • 让我们说在我的场景中,我的两个ZIP文件都具有通用的树结构,例如(parent / child1 / child2中没有任何文件,只有它的子目录)

Utilities.zip -> parent/child1/child2/utilities/

Specific_App.zip -> parent/child1/child2/Specific_App/

在这种情况下,当解压缩ZIP文件时会出现问题,例如,Specific_App.zip被解压缩后,如果之前解压缩了Utilities.zip,则文件夹结构parent / child1 / child2将已经可用。

我收到“找不到模块”错误,并看到导入的模块在Utilities.zip中的正确路径中。

请告知我是否需要更多信息。

0 个答案:

没有答案