多TableInputFormat比较2个表约80分钟

时间:2014-11-04 00:55:44

标签: hadoop mapreduce hbase

我正在使用Hbase MultiTableInputFormat来比较2个表:Table1(700万),Table2(3000万)。

在驱动程序中,我正在传递扫描(没有任何过滤器)。在我的映射器中,我正在进行比较并在Reducer中编写摘要。

特定于此方案的任何设置可能会加快此过程。感谢。

1 个答案:

答案 0 :(得分:0)

您是否使用过扫描程序缓存,它可以提高性能 - 示例 - scan.setCaching(1000);