我怎么知道Sqoop在Hadoop和NoSQL之间传输数据的时间?

时间:2015-09-22 17:19:45

标签: hadoop cron couchbase sqoop

我是Hadoop的新手。我需要将数据从Couchbase导入HDFS。它已经完成了。但是,我如何知道数据传输已完成,以便我可以按顺序运行该数据的作业(MapReduce)?

非常感谢你。

1 个答案:

答案 0 :(得分:0)

完成第一个sqoop加载作业后自动触发第二个作业的最佳方法是使用Oozie workflow自动化。

他们创造了两个oozie行动,

  • 第一个操作是具有相关属性的sqoop操作 配置为将数据从Couchbase表加载到hdfs。
  • 让第二个作业成为任何(hive / mapreduce / shell / java)动作 将访问第一个操作的输出,然后开始处理。

完成第一个sqoop加载操作后,Oozie将自动调用第二个操作。您也可以根据自己的方便扩展操作步骤的数量。

希望这有帮助。