我们正在将oracle表平移到HBase并在Hive中创建映射表,看起来我们在sqooping时,所有数据都会转到一个区域,因此当我在hive上查询时,只有一个map taks正在执行以获取记录。
是否可以通过任何方式来提高性能。
答案 0 :(得分:0)
您是否尝试过迫使桌子拆分?
如果您的数据很小(小于1 GB,或者您的默认最小区域大小),那么您只会在导入时获得一个区域。您可以强制HBase将表拆分为多个区域,但如果数据很小,您可能不会注意到很多改进。
历史上,M / R工作的开销很大。未来版本的Hive应该会有所帮助,但这些改进可能还没有进入稳定的CDH发行版。