应用错误收集

PDI作业在资源管理器或作业历史记录服务器中不被视为Mapreduce作业

时间：2015-11-06 15:30:34

标签： hadoop mapreduce pentaho elastic-map-reduce data-integration

我正在使用Pentaho 5.4和EMR 3.4

当我在Pentaho中执行转换以将数据从Oracle DB复制到EMR上的HDFS时，我在Hadoop（EMR）群集的资源管理器中看不到任何MR作业。

我是否应该将他们视为MR工作或pentaho而不创建任何MR工作..？

pentaho何时使用Mapreduce处理数据？

1 个答案:

答案 0 :(得分：0)

不确定你是否已经解决了这个问题，但是你需要在KJB中使用Pentaho MapReduce组件：Pentaho MapReduce

然后，您可以定义Mapper，Combiner和Reducer转换以及NamedCluster（XML）配置，您可以在其中指定JobTracker主机，端口等.Pentaho所做的是将其引擎复制到群集中的每个节点（默认在/ opt / pentaho /）中以您在Spoon中指定的用户身份提交作业，然后您就可以在作业历史记录中看到它们。

在您的场景中，听起来您正在使用数据库连接和其他组件来将其摄取到HDFS文件输出中。