如何在Prem Hadoop上迁移到GCP

时间:2019-02-11 09:42:49

标签: hadoop google-cloud-platform google-cloud-dataflow google-cloud-dataproc

我正在尝试将组织的Hadoop作业迁移到GCP ...我对GCP数据流和数据处理感到困惑...

我想重用我们已经创建的Hadoop作业,并尽可能减少集群的管理。我们还希望能够保留超出群集寿命的数据...

任何人都可以建议

2 个答案:

答案 0 :(得分:1)

很大程度上取决于Hadoop工作的性质以及您在选择Cloud Dataproc(托管大数据平台-Hadoop / Spark的方向)和/或Cloud Dataflow(托管大数据平台-流应用案例的Apache Beam定位)。

关于确保数据在操作之外的持久性,如果需要的话,您可能需要考虑将数据存储在GCS或PD上。

答案 1 :(得分:1)

我只是从DataProc开始,因为它与您所拥有的非常接近。

检查DataProc初始化操作https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/init-actions,创建一个简单的集群并对其进行摸索。

DataFlow受到完全管理,并且您不操作任何群集资源,但是同时您不能将现场群集原样迁移到DataFlow,您需要迁移(有时重写)Hive / Pig / Oozie等。

DataFlow的成本也以不同的方式计算,尽管与DataProc相比没有前期成本,但是每次运行作业都会在DataFlow上产生一些与之相关的成本。