我正在使用Pentaho 5.4和EMR 3.4
当我在Pentaho中执行转换以将数据从Oracle DB复制到EMR上的HDFS时,我在Hadoop(EMR)群集的资源管理器中看不到任何MR作业。
我是否应该将他们视为MR工作或pentaho而不创建任何MR工作..?
pentaho何时使用Mapreduce处理数据?
答案 0 :(得分:0)
不确定你是否已经解决了这个问题,但是你需要在KJB中使用Pentaho MapReduce组件:Pentaho MapReduce
然后,您可以定义Mapper,Combiner和Reducer转换以及NamedCluster(XML)配置,您可以在其中指定JobTracker主机,端口等.Pentaho所做的是将其引擎复制到群集中的每个节点(默认在/ opt / pentaho /)中以您在Spoon中指定的用户身份提交作业,然后您就可以在作业历史记录中看到它们。
在您的场景中,听起来您正在使用数据库连接和其他组件来将其摄取到HDFS文件输出中。