应用错误收集

关于在Amazon EMR上使用mrjob运行Mapreduce程序的一些基本疑问

时间：2012-12-12 08:03:09

标签： python hadoop mapreduce elastic-map-reduce mrjob

我是mrjob的新手，我遇到了在Amazon EMR上运行工作的问题。我会按顺序写它们。

我可以在我的本地机器上运行mrjob。但是当我在/home/ankit/.mrjob.conf和/etc/mrjob.conf中有mrjob.conf时，我的本地计算机上没有执行该作业。这是我得到的。 https://s3-ap-southeast-1.amazonaws.com/imagna.sample/local.txt
文档中“MR_CONF指定的位置”中的MRJOB_CONF是什么？
'base_tmp_directory'有什么用？另外，在开始作业之前是否需要在S3中上传输入数据，还是在开始执行时从本地计算机加载？
如果我使用像numpy，scikit等一些库，我是否需要进行一些自举？如果是，怎么样？
当我执行在EMR上运行作业的命令https://s3-ap-southeast-1.amazonaws.com/imagna.sample/emr.txt

任何解决方案？

非常感谢。

1 个答案:

答案 0 :(得分：1)

您的网址无效（我收到“拒绝访问”错误）。
mrjob.conf是配置文件。它可以位于多个位置，请参阅http://pythonhosted.org/mrjob/configs-conf.html
只需在命令行中指定输入文件的路径，即可使用本地计算机的输入数据。 MRJob会将数据上传到S3。如果指定s3：// ... URL，MRJob将使用该S3路径中的数据。
要使用非标准套餐，请参阅http://pythonhosted.org/mrjob/writing-and-running.html#custom-python-packages
您的网址无效（我收到“拒绝访问”错误）。