Hadoop HDFS:系统分区上的DateNode目录?

时间:2012-11-14 14:28:56

标签: linux hadoop filesystems hdfs quota

我们在以这种方式设置的Hadoop集群上空间不足:

  • 1x 1TB HDD /< - Ubuntu System Partition
  • 3x 1.5TB HDD / data1 / data2 / data3< - HDFS Data Volumes

系统分区几乎不使用(97%免费),不会用于与hadoop无关的任务。

将系统分区作为HDFS数据目录添加到DataNode配置是否安全?

我担心Hadoop会填满分区并使系统无法使用。

最好的方法可能是设置单独的lvm卷或重新分区磁盘。但我会避免走这条路。

hadoop是否尊重unix配额?例如。如果我从系统分区添加目录并通过配额限制hadoop用户仅使用例如0.5TB会有帮助吗?

1 个答案:

答案 0 :(得分:1)

是的,Hadoop使用通用文件编写API来编写块数据,并且会遵守Unix级别的配额。此外,还有config属性dfs.datanode.du.reserved,它允许您设置DataNodes不会考虑写入的每卷的保留空间(应用于所有卷)。

但是,允许写入OS挂载通常是不好的做法。如果你想要最终寻找更多的存储空间(假设你已经达到了限制),那么购买更多的磁盘并将它们安装在DataNode上可能会更好。