我正在使用mrjob
向pyspark
集群提交EMR
作业。
我将DIRS
变量设置为要上传和导入的源代码目录。
class MRSparkWordcount(MRJob):
DIRS = ["my_module"]
...
该目录已打包到tar.gz
中并上传到S3,
我看到mrjob
在S3中提交了指向EMR
文件的my_module.tar.gz
步骤。
但是该文件并未在EMR
内部解压缩,它仍然是tar.gz
文件,我无法从其中导入python代码。
我想念什么吗? YARN是否不应该解压缩--archived
文件?
谢谢
亚历克斯