Mapreduce的编程环境 - 无缝迭代开发

时间:2014-06-02 05:26:18

标签: eclipse mapreduce amazon-emr cloudera-cdh

我是MapReduce的新手。我从简单的单词计数示例开始。

使用Eclipse IDE,我创建了一个简单的Java Maven项目,添加了MapReduce依赖项,将我的程序编译成Jar,将其复制到Cloudera CDH VM,用虚拟输入数据执行。一旦我满意它已成功运行,我将该Jar带入我的AWS EMR环境并使用更大的(生产)数据集在那里运行。

所以,Eclipse是我的IDE,Cloudera CDH VM是我的Dev环境,AWS EMR是我的生产环境。

当我处理像字数这样的小项目时,这个设置工作正常,但我的MapReduce项目越大,在环境之间传输Jar文件就越麻烦。它使迭代开发非常繁琐。

我想知道我的环境设置是否可以调整/修改/重新编译和重建,以使其更适合迭代和大规模的MapReduce开发项目。

任何帮助/提示表示赞赏。 Dankeschön。

1 个答案:

答案 0 :(得分:0)

自从我提出这个问题以来,情况没有太大变化。 Havent找到了将jar文件手动复制到hadoop执行环境的好方法。 另见 - IsDialogMessage