我想每天自动化我的hive脚本,为了做到这一点,我有一个选项,即数据管道。但问题在于我将数据从dynamo-db导出到s3并且使用hive脚本我正在操作这些数据。我在hive-script中给出了这个输入和输出,因为hive-activity必须有输入和输出,但我必须在脚本文件中给出它们。
我正在尝试找到一种方法来自动化这个hive-script并等待一些想法?
干杯,
答案 0 :(得分:4)
您可以禁用Hive Activity上的暂存以运行任意Hive脚本。
stage = false
做类似的事情:
{
"name": "DefaultActivity1",
"id": "ActivityId_1",
"type": "HiveActivity",
"stage": "false",
"scriptUri": "s3://baucket/query.hql",
"scriptVariable": [
"param1=value1",
"param2=value2"
],
"schedule": {
"ref": "ScheduleId_l"
},
"runsOn": {
"ref": "EmrClusterId_1"
}
},
答案 1 :(得分:0)
“蜂巢”活动的另一种替代方法是使用EMR活动,如以下示例所示:
{
"schedule": {
"ref": "DefaultSchedule"
},
"name": "EMR Activity name",
"step": "command-runner.jar,hive-script,--run-hive-script,--args,-f,s3://bucket/path/query.hql",
"runsOn": {
"ref": "EmrClusterId"
},
"id": "EmrActivityId",
"type": "EmrActivity"
}