PDI作业在资源管理器或作业历史记录服务器中不被视为Mapreduce作业

时间:2015-11-06 15:30:34

标签: hadoop mapreduce pentaho elastic-map-reduce data-integration

我正在使用Pentaho 5.4和EMR 3.4

当我在Pentaho中执行转换以将数据从Oracle DB复制到EMR上的HDFS时,我在Hadoop(EMR)群集的资源管理器中看不到任何MR作业。

我是否应该将他们视为MR工作或pentaho而不创建任何MR工作..?

pentaho何时使用Mapreduce处理数据?

1 个答案:

答案 0 :(得分:0)

不确定你是否已经解决了这个问题,但是你需要在KJB中使用Pentaho MapReduce组件:Pentaho MapReduce

然后,您可以定义Mapper,Combiner和Reducer转换以及NamedCluster(XML)配置,您可以在其中指定JobTracker主机,端口等.Pentaho所做的是将其引擎复制到群集中的每个节点(默认在/ opt / pentaho /)中以您在Spoon中指定的用户身份提交作业,然后您就可以在作业历史记录中看到它们。

在您的场景中,听起来您正在使用数据库连接和其他组件来将其摄取到HDFS文件输出中。