猪需要很长时间才能存入Hbase

时间:2013-07-18 02:22:03

标签: hbase apache-pig

嗨,我是hadoop的新人。

最近,我将大量文本文件放入HDFS。 我想做的是阅读这些文件并使用Pig(LOAD,STORE)将它们放入HBase。 但是,我发现存储在HBase中需要很长时间。

以前是否有人遇到类似的情况?如果是,如何解决这个问题?

谢谢

2 个答案:

答案 0 :(得分:1)

当我使用HBaseStorage时,我面临同样的问题。 Actualy HbaseStorage执行顺序PUT操作以将数据加载到HBase中。它实际上不是一个大容量负载。看到这个未解决的Jira。 https://issues.apache.org/jira/browse/PIG-2921

但在使用 ImportTSV 选项后​​,我的性能差异显着。 http://hbase.apache.org/book/ops_mgt.html#importtsv

批量加载涉及三个步骤 1。 Pig:从源读取数据,在HBASE表结构中格式化,加载到hdfs。 2. ImportTsv:准备要通过completebulkload加载的StoreFiles。 3. completebulkload:将生成的StoreFiles移动到HBase表中。 (就像割虫一样)

希望这很有用:)

答案 1 :(得分:0)

所花费的时间取决于您拥有的节点数量以及文件的大小。 我认为最好检查输入数据集的节点数/ dfs大小。