嗨,我是hadoop的新人。
最近,我将大量文本文件放入HDFS。 我想做的是阅读这些文件并使用Pig(LOAD,STORE)将它们放入HBase。 但是,我发现存储在HBase中需要很长时间。
以前是否有人遇到类似的情况?如果是,如何解决这个问题?
谢谢
答案 0 :(得分:1)
当我使用HBaseStorage时,我面临同样的问题。 Actualy HbaseStorage执行顺序PUT操作以将数据加载到HBase中。它实际上不是一个大容量负载。看到这个未解决的Jira。 https://issues.apache.org/jira/browse/PIG-2921
但在使用 ImportTSV 选项后,我的性能差异显着。 http://hbase.apache.org/book/ops_mgt.html#importtsv
批量加载涉及三个步骤 1。 Pig:从源读取数据,在HBASE表结构中格式化,加载到hdfs。 2. ImportTsv:准备要通过completebulkload加载的StoreFiles。 3. completebulkload:将生成的StoreFiles移动到HBase表中。 (就像割虫一样)
希望这很有用:)
答案 1 :(得分:0)
所花费的时间取决于您拥有的节点数量以及文件的大小。 我认为最好检查输入数据集的节点数/ dfs大小。