通过IP连接到cloudera虚拟机中的Hadoop HDFS

时间:2014-05-21 10:37:30

标签: hadoop hdfs pentaho cloudera kettle

我希望通过hdfs的服务器地址连接到cloudera虚拟机上的hadoop实例。有谁知道如何找到这个的IP地址?

如果没有,我如何在本地连接到虚拟机中的hdfs,因为它们都在同一台计算机上运行。

需要为pentaho水壶连接执行此操作。

1 个答案:

答案 0 :(得分:1)

如果您尝试将Pentaho Data Integration(Kettle)配置为使用HDFS作为输入数据源,那么首先您需要获取HDFS NameNode服务的主机名/ IP地址和端口号然后,您将进入(Pentaho)Spoon(水壶的GUI)。

获取HDFS NameNode IP /端口号

在CDH4和5(source)中,Hadoop HDFS NameNode服务的默认端口为8020。

如果由于某种原因您没有使用默认值,那么可以在Cloudera Manager中找到HDFS NameNode服务的主机名/端口(如果您正在使用Cloudera Quickstart VM,则应该安装该主机名/端口,例如):

  • 单击主Cloudera Manager页面上的HDFS服务
  • 点击配置 - 查看和编辑
  • 单击NameNode - 端口和地址。
  • " NameNode Port"是你想要的那个,即不是" NameNode Web UI端口"。由于PDI需要NameNode端口。

浏览PDI中的HDFS文件以确认

通过打开Pentaho数据集成(Spoon)并创建一个" Hadoop复制文件"进行测试。转换步骤,作为示例,然后在"浏览文件"中输入您的HDFS详细信息。区域并检查目录列表是否显示。