使用aws自动化Hive活动

时间:2013-10-31 14:48:19

标签: hadoop amazon-web-services hive amazon-data-pipeline

我想每天自动化我的hive脚本,为了做到这一点,我有一个选项,即数据管道。但问题在于我将数据从dynamo-db导出到s3并且使用hive脚本我正在操作这些数据。我在hive-script中给出了这个输入和输出,因为hive-activity必须有输入和输出,但我必须在脚本文件中给出它们。

我正在尝试找到一种方法来自动化这个hive-script并等待一些想法?

干杯,

2 个答案:

答案 0 :(得分:4)

您可以禁用Hive Activity上的暂存以运行任意Hive脚本。

stage = false

做类似的事情:

{
  "name": "DefaultActivity1",
  "id": "ActivityId_1",
  "type": "HiveActivity",
  "stage": "false",
  "scriptUri": "s3://baucket/query.hql",
  "scriptVariable": [
    "param1=value1",
    "param2=value2"
  ],
  "schedule": {
    "ref": "ScheduleId_l"
  },
  "runsOn": {
    "ref": "EmrClusterId_1"
  }
},

答案 1 :(得分:0)

“蜂巢”活动的另一种替代方法是使用EMR活动,如以下示例所示:

{
      "schedule": {
        "ref": "DefaultSchedule"
      },
      "name": "EMR Activity name",
      "step": "command-runner.jar,hive-script,--run-hive-script,--args,-f,s3://bucket/path/query.hql",
      "runsOn": {
        "ref": "EmrClusterId"
      },
      "id": "EmrActivityId",
      "type": "EmrActivity"
    }