使用Oozie使用Hive / Hadoop调度即席查询

时间:2014-04-24 17:08:06

标签: java hadoop hive oozie

Oozie是否支持通过REST API进行特定Hive查询的用户调度?

我们正在构建一个系统,用户可以在Hadoop中搜索文档,并支持用户(可选)指定要搜索的数据的某些属性,使用Hive执行针对Hadoop的查询。由于对可选字段的这种支持,我们不能提前知道Hive查询的外观(就Hive查询中将使用哪些表而言)。我们有一项服务,在运行时,我们处理用户的查询以生成相应的Hive查询。

我们希望能够通过Oozie安排这些查询,但我还没有找到如何通过Oozie执行此操作的文档。我认为这是可能的。是否有可用的Java代码示例来描述如何执行此操作?

2 个答案:

答案 0 :(得分:2)

使用Oozie协调器为Oozie协调员安排作业,Apache文档here和示例here。另外,请查看Azkaban(12)进行日程安排。

答案 1 :(得分:1)

通过REST API提交代理配置单元作业,用户无需在HDFS上创建工作流XML即可提交作业:

您还可以使用FluentAPI以编程方式构建工作流程:

如上所述,Oozie Coordinator可用于安排和定期执行工作流程。除了时间依赖性,您还可以定义数据依赖性(例如HDFS上特定文件的存在)以启动工作流程。