将数据传输到HBase并与Hive集成会对性能产生影响

时间:2013-10-23 05:11:57

标签: hbase hive sqoop

我们正在将oracle表平移到HBase并在Hive中创建映射表,看起来我们在sqooping时,所有数据都会转到一个区域,因此当我在hive上查询时,只有一个map taks正在执行以获取记录。

是否可以通过任何方式来提高性能。

1 个答案:

答案 0 :(得分:0)

您是否尝试过迫使桌子拆分?

如果您的数据很小(小于1 GB,或者您的默认最小区域大小),那么您只会在导入时获得一个区域。您可以强制HBase将表拆分为多个区域,但如果数据很小,您可能不会注意到很多改进。

历史上,M / R工作的开销很大。未来版本的Hive应该会有所帮助,但这些改进可能还没有进入稳定的CDH发行版。