自动化Pig,Hive,Sqoop的过程

时间:2017-04-26 07:59:05

标签: hive mapreduce apache-pig sqoop hdinsight

我在 csv 格式的 HDFS (Azure HDInsight )中有数据。我正在使用 Pig 处理此数据。在 Pig 处理后,汇总数据将存储在Hive中。然后使用 Sqoop 在RDBMS中导出 Hive 表。现在我需要自动化所有这一过程。我是否有可能在 MapReduce 中为所有这3个任务编写特定方法,然后运行此 MapReduce 作业,并且所有这些任务逐个执行。 要创建MapReduce作业,我想使用。 Net SDK 。所以我的问题是这可能,如果,而不是为本课题建议一些步骤和参考 链接。 谢谢。

1 个答案:

答案 0 :(得分:0)

如果您需要定期运行这些任务,我建议您使用Oozie。查看现有的example,它有相当好的文档

如果您没有在云上使用此框架,您可以编写自己的MR,但是我有Oozie,您可以编写DAG流程,其中图表上的每个操作都可以是pig / bash / hive / hdfs和更多。

它可以每X天/小时/分钟运行,并可以在发生故障时通过电子邮件发送给您