使用GCP Composer运行Hive查询

时间:2018-11-30 21:42:11

标签: python google-cloud-platform airflow google-cloud-dataproc google-cloud-composer

因此,我计划使用GCP Composer运行一些Hive作业。

将Hive与Dataproc一起使用是实现此目的的最佳方法吗?

应将数据存储在哪里? Dataproc可以从Google Cloud Storage存储桶读取数据吗?

2 个答案:

答案 0 :(得分:1)

有几种方法可以在dataproc中提交配置作业。
dataproc从Google存储桶读取数据。我已经回答了这个问题HERE

您几乎可以在dataporc中提交您的蜂巢作业。
1)您可以通过选择查询选项直接发出命令。
2)您可以选择查询文件选项,然后提及位置文件(Google存储空间)。例如Here

现在是第一个问题,将蜂巢与Dataproc结合使用是实现此目的的最佳方法吗?-
这完全取决于您的要求。有很多可用的工作选项,您必须根据自己的要求进行选择,因此这是最好的。如果您可以指定更多有关需求的详细信息,我可以更清楚地回答。

好吧,我可以为您提供 HIVE JOBS 的要点,以便您进行排序您的要求。

您可以在Hive作业中执行以下操作:

  • 您可以进行内联查询(一个或多个)
  • 您可以向查询命令表格查询文件(一个或多个)
  • 您可以在配置单元中添加jar文件-可以用于任何目的,例如UDF(一个或多个)
  • 您可以添加其他属性来配置您的工作
  • 您可以使作业自动化
    关于基本的蜂巢作业。

Airflow Data Proc Documentation拥有您可以使用的所有可用操作员。

答案 1 :(得分:0)

是的,Dataproc可以从GCS Bucket读取数据。例如,阅读:https://cloud.google.com/solutions/using-apache-hive-on-cloud-dataproc#creating_a_hive_table

然后您可以使用DataProcHiveOperator通过Cloud Composer在其上运行查询。