因此,我计划使用GCP Composer运行一些Hive作业。
将Hive与Dataproc一起使用是实现此目的的最佳方法吗?
应将数据存储在哪里? Dataproc可以从Google Cloud Storage存储桶读取数据吗?
答案 0 :(得分:1)
有几种方法可以在dataproc中提交配置作业。
是 dataproc从Google存储桶读取数据。我已经回答了这个问题HERE
您几乎可以在dataporc中提交您的蜂巢作业。
1)您可以通过选择查询选项直接发出命令。
2)您可以选择查询文件选项,然后提及位置文件(Google存储空间)。例如Here
现在是第一个问题,将蜂巢与Dataproc结合使用是实现此目的的最佳方法吗?-
这完全取决于您的要求。有很多可用的工作选项,您必须根据自己的要求进行选择,因此这是最好的。如果您可以指定更多有关需求的详细信息,我可以更清楚地回答。
好吧,我可以为您提供 HIVE JOBS 的要点,以便您进行排序您的要求。
您可以在Hive作业中执行以下操作:
Airflow Data Proc Documentation拥有您可以使用的所有可用操作员。
答案 1 :(得分:0)
是的,Dataproc可以从GCS Bucket读取数据。例如,阅读:https://cloud.google.com/solutions/using-apache-hive-on-cloud-dataproc#creating_a_hive_table
然后您可以使用DataProcHiveOperator
通过Cloud Composer在其上运行查询。