关于在Amazon EMR上使用mrjob运行Mapreduce程序的一些基本疑问

时间:2012-12-12 08:03:09

标签: python hadoop mapreduce elastic-map-reduce mrjob

我是mrjob的新手,我遇到了在Amazon EMR上运行工作的问题。我会按顺序写它们。

  1. 我可以在我的本地机器上运行mrjob。但是当我在/home/ankit/.mrjob.conf和/etc/mrjob.conf中有mrjob.conf时,我的本地计算机上没有执行该作业。 这是我得到的。 https://s3-ap-southeast-1.amazonaws.com/imagna.sample/local.txt
  2. 文档中“MR_CONF指定的位置”中的MRJOB_CONF是什么?
  3. 'base_tmp_directory'有什么用?另外,在开始作业之前是否需要在S3中上传输入数据,还是在开始执行时从本地计算机加载?
  4. 如果我使用像numpy,scikit等一些库,我是否需要进行一些自举?如果是,怎么样?
  5. 当我执行在EMR上运行作业的命令https://s3-ap-southeast-1.amazonaws.com/imagna.sample/emr.txt
  6. 时,这就是我所得到的

    任何解决方案?

    非常感谢。

1 个答案:

答案 0 :(得分:1)

  1. 您的网址无效(我收到“拒绝访问”错误)。
  2. mrjob.conf是配置文件。它可以位于多个位置,请参阅http://pythonhosted.org/mrjob/configs-conf.html
  3. 只需在命令行中指定输入文件的路径,即可使用本地计算机的输入数据。 MRJob会将数据上传到S3。如果指定s3:// ... URL,MRJob将使用该S3路径中的数据。
  4. 要使用非标准套餐,请参阅http://pythonhosted.org/mrjob/writing-and-running.html#custom-python-packages
  5. 您的网址无效(我收到“拒绝访问”错误)。