标签: apache-spark mapreduce timestamp hbase apache-pig
我正在寻找将增量数据(基于源表的时间戳)加载到我的表中的最佳方法。我有一个源表(在hbase中),每天都会更新数据。在第一个流程中,我将必须将完整数据传输到我的测试表(在hbase中)。第二天,我只需要从源表中传输新添加的记录。为此,我将使用时间戳来区分需要转移的内容和不需要转移的内容。那么哪种转移方式最好。我应该使用PIG,MapReduce还是Spark?
答案 0 :(得分:0)
您是否考虑使用org.apache.hadoop.hbase.mapreduce.CopyTable等现有课程?它们支持增量复制。
无需编写代码。