Question

所以场景是我试图使用HBase批量加载将一些数据加载到HBase中。这是我的堆栈设置： HBase版本1.3.1 Hadoop版本：2.7.3 EMR版本5.10。簇大小：20个R4.2xlarge实例。我有一个hbase表，它预先拆分为400个区域，HexStringSplit用于行键。该表仅包含一个列族，并使用lz4压缩算法

然后我尝试使用bulkload将一些数据加载到表中。我能够使用import tsv工具在HDFS上生成HFiles，总文件大小约为20 GB。

然后我按如下方式运行“completebulkload”工具： hadoop jar /usr/lib/hbase/lib/hbase-server-1.3.1.jar completebulkload hdfs：/// user / hbase / output MyTable

此处“hdfs：/// user / hbase / output”是导入tsv作业的输出目录。

这个过程开始但卡住了，我只看到以下输出：

17/12/05 19:49:22 WARN mapreduce.LoadIncrementalHFiles: Skipping non-directory hdfs://ip-172-31-19-197.ec2.internal:8020/user/hbase/output/_SUCCESS
17/12/05 19:49:23 INFO compress.CodecPool: Got brand-new decompressor [.lz4]
17/12/05 19:49:23 INFO compress.CodecPool: Got brand-new decompressor [.lz4]
17/12/05 19:49:23 INFO compress.CodecPool: Got brand-new decompressor [.lz4]
17/12/05 19:49:23 INFO compress.CodecPool: Got brand-new decompressor [.lz4]

没有打印进一步的信息。已经差不多1小时但仍然没有。我检查了HBase UI，但尚未加载任何内容。所有地区都是空的。

对此有何想法？

由于

Hbase completebulkload卡在AWS EMR上

0 个答案: