hadoop是否使用文件夹和子文件夹

时间:2013-11-05 17:39:50

标签: hadoop hdfs

我已经开始学习Hadoop并刚刚完成设置单个节点,如hadoop 1.2.1 documentation中所示 现在我想知道是否

  1. 当文件存储在这种类型的FS中时,我应该使用多层次的存储模式 - 就像在Windows中一样使用文件夹和子文件夹,只要它们具有唯一的名称,就会写入文件?
  2. 是否有可能在单节点设置中添加新节点,如果有人要在生产环境中使用它。或者只需添加更多节点并编辑配置,就可以将单个节点转换为集群而不会丢失数据?
  3. 这个我可以google但是到底是怎么回事!无论如何我要问,起诉我。我可以在HDFS中存储的最大文件数是多少?

2 个答案:

答案 0 :(得分:1)

  

当文件存储在这种类型的FS中时,我应该使用层次模式的存储 - 比如我在Windows中的文件夹和子文件夹,或者只要它们具有唯一的名称就可以写入文件?

是的,请使用这些目录。通常,当您在Hadoop中运行作业时,如果您将路径传递到目录,它将处理该目录中的所有文件。所以..你真的必须使用它们。

  

是否有可能在单节点设置中添加新节点,如果有人要在生产环境中使用它。或者只需添加更多节点并编辑配置,就可以将单个节点转换为集群而不会丢失数据?

你可以随意添加/删除节点(除非是单节点,你的意思是伪分布......那是不同的)

  

这个我可以google但是到底是怎么回事!无论如何我要问,起诉我。我可以在HDFS中存储的最大文件数是多少?

很多

答案 1 :(得分:0)

扩大攀岩的答案:

最大文件数是Name Node服务器可用内存量的函数。有一些宽松的指导,名称节点中的每个元数据条目需要150-200字节的内存(它按版本更改)。

由此您需要推断出文件的数量,以及每个文件的块数(可能因文件和块大小而异),您可以估算给定的内存分配(2G / 4G / 20G等),您可以存储多少元数据条目(以及文件)。