应用错误收集

时间：2019-02-11 09:42:49

标签： hadoop google-cloud-platform google-cloud-dataflow google-cloud-dataproc

我正在尝试将组织的Hadoop作业迁移到GCP ...我对GCP数据流和数据处理感到困惑...

我想重用我们已经创建的Hadoop作业，并尽可能减少集群的管理。我们还希望能够保留超出群集寿命的数据...

任何人都可以建议

答案 0 :(得分：1)

很大程度上取决于Hadoop工作的性质以及您在选择Cloud Dataproc（托管大数据平台-Hadoop / Spark的方向）和/或Cloud Dataflow（托管大数据平台-流应用案例的Apache Beam定位）。

关于确保数据在操作之外的持久性，如果需要的话，您可能需要考虑将数据存储在GCS或PD上。

答案 1 :(得分：1)

我只是从DataProc开始，因为它与您所拥有的非常接近。

检查DataProc初始化操作https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/init-actions，创建一个简单的集群并对其进行摸索。

DataFlow受到完全管理，并且您不操作任何群集资源，但是同时您不能将现场群集原样迁移到DataFlow，您需要迁移（有时重写）Hive / Pig / Oozie等。

DataFlow的成本也以不同的方式计算，尽管与DataProc相比没有前期成本，但是每次运行作业都会在DataFlow上产生一些与之相关的成本。