Question

我是这个论坛的新手，也是hdfs / hbase。

我在hdfs上的hbase中创建了一个表。加载的文件在Windows磁盘上有10万条记录，大小为1GB。在hdfs上加载文件时，hdfs中表的大小为： -

root@narmada:~/agni/hdfs/hadoop-1.1.2# ./bin/hadoop fs -dus /hbase/hdfs_10M
hdfs://192.168.5.58:54310/hbase/hdfs_10M       4143809619

有人可以帮助缩小尺寸吗？

表格详情。

DESCRIPTION                                                                                                  ENABLED
 'hdfs_10M', {NAME => 'v', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0',  true
 VERSIONS => '3', COMPRESSION => 'NONE', MIN_VERSIONS => '0', TTL => '2147483647', KEEP_DELETED_CELLS => 'fa
 lse', BLOCKSIZE => '65536', IN_MEMORY => 'false', ENCODE_ON_DISK => 'true', BLOCKCACHE => 'true'}
1 row(s) in 0.2340 seconds

Answer 1

通常一旦我们将文件加载到HDFS之上，它就会将文件分成相同大小的块。默认情况下，此块大小为64mb。 Hadoop维护每个块的3个重复，这意味着如果我们想在HDFS上存储大小为1TB的文件，我们需要一个硬件来存储3TB。每个块将存储在三个不同的数据节点上。

价：http://hadooptutor.blogspot.com/2013/07/replication.html

如果您不需要复制数据，请将以下属性放在hbase和hadoop配置文件中。

<property>
  <name>dfs.replication</name>
  <value>1</value>
</property>

hdfs上的Hbase表大小是实际输入文件的X 4

1 个答案: