hbase中的增量数据加载

时间:2016-06-10 11:28:06

标签: apache-spark mapreduce timestamp hbase apache-pig

我正在寻找将增量数据(基于源表的时间戳)加载到我的表中的最佳方法。我有一个源表(在hbase中),每天都会更新数据。在第一个流程中,我将必须将完整数据传输到我的测试表(在hbase中)。第二天,我只需要从源表中传输新添加的记录。为此,我将使用时间戳来区分需要转移的内容和不需要转移的内容。那么哪种转移方式最好。我应该使用PIG,MapReduce还是Spark?

1 个答案:

答案 0 :(得分:0)

您是否考虑使用org.apache.hadoop.hbase.mapreduce.CopyTable等现有课程?它们支持增量复制。

无需编写代码。