pentaho水壶无法连接到cloudera cdh4 HDFS

时间:2014-07-02 06:47:16

标签: hadoop connection hdfs kettle

我正在使用pentaho数据集成工具(Kettle PDI 5.0)和Cloudera CDH4(版本4.6)virtualbox单节点版本。

我正在尝试运行教程Loading Data into HDFS

但问题是我无法连接到CDH4 HDFS: Kettle向我显示了无法连接到HDFS的错误。

我已将active.hadoop.configuration配置为cdh42,并且我正在运行windows 8.1中的spoon.bat文件

如果有人知道如何设置连接,请提供帮助。

2 个答案:

答案 0 :(得分:0)

要配置与Hadoop的连接,您需要在 / plugins / pentaho-big-data-plugin / hadoop-configurations / YOUR_CONF / 中提供正确的配置文件。您至少应该提供 core-site.xml

然后你应该在 / plugins / pentaho-big-data-plugin / 中编辑 plugin.properties 并设置active.hadoop.configuration=YOUR_CONF

我没有提及 YOUR_CONF :CDH 4.2和4.6很可能不兼容!因此,您必须创建自己的配置目录并为其提供库。他们中的大多数来自hadoop及其组件lib文件夹和其他由pentaho提供,如 pentaho-hadoop-shims-hadoop - * .jar

另外,请考虑阅读Hadoop Configurations

答案 1 :(得分:0)

所以同事,很多时候没有连接到目录可能与用户有关。将 haddop 与 pentaho 一起使用时,因为运行 pentaho 的用户必须是拥有 hadoop 内核的同一用户。

例如,如果您在 hadoop 上有一个名为 jluciano 的用户,您需要检查系统上使用相同名称的用户,然后在 pentaho 中运行该进程,因此对目录的访问将滚动:)。

在那里测试一下,任何东西都会警告你

另一件事,尝试用主机名连接,然后用 IP 连接