数据准备vs数据流vs Dataproc

时间:2018-06-20 02:19:02

标签: google-cloud-platform google-cloud-dataflow google-cloud-dataproc google-cloud-dataprep

要执行源数据准备,数据转换或数据清理,在什么情况下我们应该使用Dataprep vs Dataflow vs Dataproc?

3 个答案:

答案 0 :(得分:1)

数据准备/转换/清理任务都可以看作是ETL流程,可以用您提到的任何产品来实现。 This较早的答案涵盖了Dataflow与Dataproc问题的基础,并包括this链接,该链接总结了在这三个之间进行选择时应注意的事项。

简而言之,您应该考虑熟悉程度(您是否已经使用过Hadoop生态系统工具?梁编程模型?您宁愿通过UI来工作?)和所需的控制级别(dataproc允许对集群,数据流进行更多控制)和dataprep是完全托管的服务)。

更多好书:

答案 1 :(得分:1)

Dataproc和Dataflow都是Google云上的数据处理服务。这两个系统的共同点是它们都可以处理批量数据或流数据。两者都有易于使用的工作流模板。 但以下是两者的区别特征

Dataproc设计为在群集上运行。这使其与Apache Hadoop,hive和spark兼容。创建群集的速度非常快,并且可以自动扩展群集而不会中断正在运行的作业。

如果您的数据无法使用spark或Hadoop实现,则数据流会更好。它不能在群集上运行,而是基于并行数据处理。这样的数据在多个微处理器上进行拆分处理,以减少处理时间。

答案 2 :(得分:0)

关于Dataproc的重要说明是, Dataprep提供数据清理并自动识别数据中的异常。它与Cloud Storage,BigTable和BigQuery集成在一起