EMR上的mrjob:--archives文件未在节点上解压缩

时间:2019-05-12 15:46:59

标签: pyspark yarn amazon-emr mrjob

我正在使用mrjobpyspark集群提交EMR作业。 我将DIRS变量设置为要上传和导入的源代码目录。

class MRSparkWordcount(MRJob):

    DIRS = ["my_module"]
    ...

该目录已打包到tar.gz中并上传到S3, 我看到mrjob在S3中提交了指向EMR文件的my_module.tar.gz步骤。 但是该文件并未在EMR内部解压缩,它仍然是tar.gz文件,我无法从其中导入python代码。

我想念什么吗? YARN是否不应该解压缩--archived文件?

谢谢

亚历克斯

0 个答案:

没有答案