我正在尝试将组织的Hadoop作业迁移到GCP ...我对GCP数据流和数据处理感到困惑...
我想重用我们已经创建的Hadoop作业,并尽可能减少集群的管理。我们还希望能够保留超出群集寿命的数据...
任何人都可以建议
答案 0 :(得分:1)
很大程度上取决于Hadoop工作的性质以及您在选择Cloud Dataproc(托管大数据平台-Hadoop / Spark的方向)和/或Cloud Dataflow(托管大数据平台-流应用案例的Apache Beam定位)。
关于确保数据在操作之外的持久性,如果需要的话,您可能需要考虑将数据存储在GCS或PD上。
答案 1 :(得分:1)
我只是从DataProc开始,因为它与您所拥有的非常接近。
检查DataProc初始化操作https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/init-actions,创建一个简单的集群并对其进行摸索。
DataFlow受到完全管理,并且您不操作任何群集资源,但是同时您不能将现场群集原样迁移到DataFlow,您需要迁移(有时重写)Hive / Pig / Oozie等。
DataFlow的成本也以不同的方式计算,尽管与DataProc相比没有前期成本,但是每次运行作业都会在DataFlow上产生一些与之相关的成本。