我有一个Oozie工作流程,应该每X分钟运行一次。它从HBase表中读取值。在此之后,基于在上一步骤中从HBase读取的值运行Sqoop操作(增量)。为了使工作流程能够工作,我需要以某种方式从Sqoop Oozie动作中捕获新的--last-value以写回HBase,并在下次工作流程再次读取时...等等。
我该怎么做,或者可能有更好的方法?
纳斯
答案 0 :(得分:2)
我认为博客http://www.tanzirmusabbir.com/2013/05/chunk-data-import-incremental-import-in.html可能会给你一些提示。
基本上,它将startindex和chunksize保存在job.properties中,startindex用于Sqoop作业中的where条件,然后在sqoop作业之后通过shell脚本更改startindex。