我在hbase中有两个主表(比如tabl1,tabl2),分别包含34874716和25167890行。现在每天生成两个包含2-2.5 lac行的临时表。我有一个cron job将临时表行更新为主表。这需要大约4.5-5小时。更新主表的cron作业的算法是,如果存在则逐个从主表中获取行,并更新相同的其他行,即在表中插入行。
仅供参考,我在运行region servers
hbase
之一的同一台机器上运行此cron作业。我想最小化这个cron作业的时间以及内存利用率。那么,有没有比上面的cron job链接更好的方法呢?