Datanode中的操作系统

时间:2015-01-02 09:55:50

标签: hadoop hdfs bigdata

因为我在伪分布式模式下使用Cloudera CDH4 VM。我的问题是,在实际的hdfs集群中,我们是否要在datanode上安装hadoop? 我们可以通过登录datanode看到数据节点驱动器中的数据分割吗?

1 个答案:

答案 0 :(得分:1)

是的,在实际安装中(1个活动的名称节点,许多数据节点)必须在每个节点上安装hadoop。 CDH(以及大多数其他供应商)提供软件来帮助进行分布式安装。

您可以通过webhdfs查看文件元数据(通常是浏览hdfs),方法是启用webhdfs(在hdfs-site.xml中将属性dfs.webhdfs.enabled设置为true,然后重新启动hdfs),将浏览器定向到localhost:50070,并浏览到感兴趣的文件。

也可以通过hadoop FileInputFormat API以编程方式检索文件元数据。例如,对于文件拆分,您可以使用getSplits()。它将返回感兴趣文件的每个拆分的位置。更直接的解决方案可以是使用FileSystem API,特别是FileSystem.listFiles(),它返回块位置信息。后者可能只包含在后来的hadoop 2.x版本中,但我不确定。