我是mrjob的新手,我遇到了在Amazon EMR上运行工作的问题。我会按顺序写它们。
- 我可以在我的本地机器上运行mrjob。但是当我在/home/ankit/.mrjob.conf和/etc/mrjob.conf中有mrjob.conf时,我的本地计算机上没有执行该作业。
这是我得到的。 https://s3-ap-southeast-1.amazonaws.com/imagna.sample/local.txt
- 文档中“MR_CONF指定的位置”中的MRJOB_CONF是什么?
- 'base_tmp_directory'有什么用?另外,在开始作业之前是否需要在S3中上传输入数据,还是在开始执行时从本地计算机加载?
- 如果我使用像numpy,scikit等一些库,我是否需要进行一些自举?如果是,怎么样?
- 当我执行在EMR上运行作业的命令https://s3-ap-southeast-1.amazonaws.com/imagna.sample/emr.txt
时,这就是我所得到的
醇>
任何解决方案?
非常感谢。