hbase - 猪需要很长时间才能存入Hbase

猪需要很长时间才能存入Hbase

时间：2013-07-18 02:22:03

标签： hbase apache-pig

嗨，我是hadoop的新人。

最近，我将大量文本文件放入HDFS。我想做的是阅读这些文件并使用Pig（LOAD，STORE）将它们放入HBase。但是，我发现存储在HBase中需要很长时间。

以前是否有人遇到类似的情况？如果是，如何解决这个问题？

谢谢

2 个答案:

答案 0 :(得分：1)

当我使用HBaseStorage时，我面临同样的问题。 Actualy HbaseStorage执行顺序PUT操作以将数据加载到HBase中。它实际上不是一个大容量负载。看到这个未解决的Jira。 https://issues.apache.org/jira/browse/PIG-2921

但在使用 ImportTSV 选项后，我的性能差异显着。 http://hbase.apache.org/book/ops_mgt.html#importtsv

批量加载涉及三个步骤 1。 Pig：从源读取数据，在HBASE表结构中格式化，加载到hdfs。 2. ImportTsv：准备要通过completebulkload加载的StoreFiles。 3. completebulkload：将生成的StoreFiles移动到HBase表中。（就像割虫一样）

希望这很有用:)

答案 1 :(得分：0)

所花费的时间取决于您拥有的节点数量以及文件的大小。我认为最好检查输入数据集的节点数/ dfs大小。