我是这个论坛的新手,也是hdfs / hbase。
我在hdfs上的hbase中创建了一个表。加载的文件在Windows磁盘上有10万条记录,大小为1GB。在hdfs上加载文件时,hdfs中表的大小为: -
root@narmada:~/agni/hdfs/hadoop-1.1.2# ./bin/hadoop fs -dus /hbase/hdfs_10M
hdfs://192.168.5.58:54310/hbase/hdfs_10M 4143809619
有人可以帮助缩小尺寸吗?
表格详情。
DESCRIPTION ENABLED
'hdfs_10M', {NAME => 'v', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', true
VERSIONS => '3', COMPRESSION => 'NONE', MIN_VERSIONS => '0', TTL => '2147483647', KEEP_DELETED_CELLS => 'fa
lse', BLOCKSIZE => '65536', IN_MEMORY => 'false', ENCODE_ON_DISK => 'true', BLOCKCACHE => 'true'}
1 row(s) in 0.2340 seconds
答案 0 :(得分:0)
通常一旦我们将文件加载到HDFS之上,它就会将文件分成相同大小的块。默认情况下,此块大小为64mb。 Hadoop维护每个块的3个重复,这意味着如果我们想在HDFS上存储大小为1TB的文件,我们需要一个硬件来存储3TB。每个块将存储在三个不同的数据节点上。
如果您不需要复制数据,请将以下属性放在hbase和hadoop配置文件中。
<property>
<name>dfs.replication</name>
<value>1</value>
</property>