我希望通过hdfs的服务器地址连接到cloudera虚拟机上的hadoop实例。有谁知道如何找到这个的IP地址?
如果没有,我如何在本地连接到虚拟机中的hdfs,因为它们都在同一台计算机上运行。
需要为pentaho水壶连接执行此操作。
答案 0 :(得分:1)
如果您尝试将Pentaho Data Integration(Kettle)配置为使用HDFS作为输入数据源,那么首先您需要获取HDFS NameNode服务的主机名/ IP地址和端口号然后,您将进入(Pentaho)Spoon(水壶的GUI)。
获取HDFS NameNode IP /端口号
在CDH4和5(source)中,Hadoop HDFS NameNode服务的默认端口为8020。
如果由于某种原因您没有使用默认值,那么可以在Cloudera Manager中找到HDFS NameNode服务的主机名/端口(如果您正在使用Cloudera Quickstart VM,则应该安装该主机名/端口,例如):
浏览PDI中的HDFS文件以确认
通过打开Pentaho数据集成(Spoon)并创建一个" Hadoop复制文件"进行测试。转换步骤,作为示例,然后在"浏览文件"中输入您的HDFS详细信息。区域并检查目录列表是否显示。