无法使用PDI步骤连接到HDFS

时间:2014-07-30 17:36:17

标签: hadoop hdfs pentaho data-integration

我已经从 Windows 8 系统在 Ubuntu 14.04 VM 中成功配置了 Hadoop 2.4 。 Hadoop安装工作非常好,我也可以从我的Windows浏览器中查看Namenode。附上图片:

enter image description here

所以,我的主机名是:ubuntu和hdfs port:9000(如果我错了,请纠正我)。

Core-site.xml:

<property>
  <name>fs.defaultFS</name>
  <value>hdfs://ubuntu:9000</value>
</property>

问题是从我的Pentaho数据集成工具连接到HDFS。附上的图片如下。 PDI版本:4.4.0 使用的步骤:Hadoop复制文件

enter image description here

请帮助我使用PDI连接到HDFS。我需要为此安装或更新任何jar吗?如果您需要更多信息,请与我们联系。

1 个答案:

答案 0 :(得分:3)

PDI 4.4 afaik并不支持Hadoop 2.4。在任何情况下,文件中都有一个属性,您必须将其设置为使用特定的Hadoop配置(您可能会看到&#34; Hadoop配置&#34;在论坛中称为&#34; shim&#34;等等)。在data-integration / plugins / pentaho-big-data-plugin / plugin.properties文件中有一个名为active.hadoop.configuration的属性,它默认设置为&#34; hadoop-20&#34;它指的是Apache Hadoop 0.20.x发行版。您需要将其设置为&#34;最新的&#34; Pentaho附带的发行版,或者我的博客文章中描述的构建你自己的垫片:

http://funpdi.blogspot.com/2013/03/pentaho-data-integration-44-and-hadoop.html

PDI即将推出的版本(5.2+)将支持包含Hadoop 2.4+的供应商发行版,因此请密切关注PDI Marketplace和pentaho.com:)