hdfs上的Hbase表大小是实际输入文件的X 4

时间:2013-08-10 08:04:54

标签: hbase hdfs

我是这个论坛的新手,也是hdfs / hbase。

我在hdfs上的hbase中创建了一个表。加载的文件在Windows磁盘上有10万条记录,大小为1GB。在hdfs上加载文件时,hdfs中表的大小为: -

root@narmada:~/agni/hdfs/hadoop-1.1.2# ./bin/hadoop fs -dus /hbase/hdfs_10M
hdfs://192.168.5.58:54310/hbase/hdfs_10M       4143809619

有人可以帮助缩小尺寸吗?

表格详情。

DESCRIPTION                                                                                                  ENABLED
 'hdfs_10M', {NAME => 'v', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0',  true
 VERSIONS => '3', COMPRESSION => 'NONE', MIN_VERSIONS => '0', TTL => '2147483647', KEEP_DELETED_CELLS => 'fa
 lse', BLOCKSIZE => '65536', IN_MEMORY => 'false', ENCODE_ON_DISK => 'true', BLOCKCACHE => 'true'}
1 row(s) in 0.2340 seconds

1 个答案:

答案 0 :(得分:0)

通常一旦我们将文件加载到HDFS之上,它就会将文件分成相同大小的块。默认情况下,此块大小为64mb。 Hadoop维护每个块的3个重复,这意味着如果我们想在HDFS上存储大小为1TB的文件,我们需要一个硬件来存储3TB。每个块将存储在三个不同的数据节点上。

  

价:http://hadooptutor.blogspot.com/2013/07/replication.html

如果您不需要复制数据,请将以下属性放在hbase和hadoop配置文件中。

<property>
  <name>dfs.replication</name>
  <value>1</value>
</property>