所以场景是我试图使用HBase批量加载将一些数据加载到HBase中。 这是我的堆栈设置: HBase版本1.3.1 Hadoop版本:2.7.3 EMR版本5.10。 簇大小:20个R4.2xlarge实例。 我有一个hbase表,它预先拆分为400个区域,HexStringSplit用于行键。 该表仅包含一个列族,并使用lz4压缩算法
然后我尝试使用bulkload将一些数据加载到表中。 我能够使用import tsv工具在HDFS上生成HFiles,总文件大小约为20 GB。
然后我按如下方式运行“completebulkload”工具: hadoop jar /usr/lib/hbase/lib/hbase-server-1.3.1.jar completebulkload hdfs:/// user / hbase / output MyTable
此处“hdfs:/// user / hbase / output”是导入tsv作业的输出目录。
这个过程开始但卡住了,我只看到以下输出:
17/12/05 19:49:22 WARN mapreduce.LoadIncrementalHFiles: Skipping non-directory hdfs://ip-172-31-19-197.ec2.internal:8020/user/hbase/output/_SUCCESS
17/12/05 19:49:23 INFO compress.CodecPool: Got brand-new decompressor [.lz4]
17/12/05 19:49:23 INFO compress.CodecPool: Got brand-new decompressor [.lz4]
17/12/05 19:49:23 INFO compress.CodecPool: Got brand-new decompressor [.lz4]
17/12/05 19:49:23 INFO compress.CodecPool: Got brand-new decompressor [.lz4]
没有打印进一步的信息。已经差不多1小时但仍然没有。我检查了HBase UI,但尚未加载任何内容。所有地区都是空的。
对此有何想法?
由于