要执行源数据准备,数据转换或数据清理,在什么情况下我们应该使用Dataprep vs Dataflow vs Dataproc?
答案 0 :(得分:1)
数据准备/转换/清理任务都可以看作是ETL流程,可以用您提到的任何产品来实现。 This较早的答案涵盖了Dataflow与Dataproc问题的基础,并包括this链接,该链接总结了在这三个之间进行选择时应注意的事项。
简而言之,您应该考虑熟悉程度(您是否已经使用过Hadoop生态系统工具?梁编程模型?您宁愿通过UI来工作?)和所需的控制级别(dataproc允许对集群,数据流进行更多控制)和dataprep是完全托管的服务)。
更多好书:
答案 1 :(得分:1)
Dataproc和Dataflow都是Google云上的数据处理服务。这两个系统的共同点是它们都可以处理批量数据或流数据。两者都有易于使用的工作流模板。 但以下是两者的区别特征
Dataproc设计为在群集上运行。这使其与Apache Hadoop,hive和spark兼容。创建群集的速度非常快,并且可以自动扩展群集而不会中断正在运行的作业。
如果您的数据无法使用spark或Hadoop实现,则数据流会更好。它不能在群集上运行,而是基于并行数据处理。这样的数据在多个微处理器上进行拆分处理,以减少处理时间。
答案 2 :(得分:0)
关于Dataproc的重要说明是, Dataprep提供数据清理并自动识别数据中的异常。它与Cloud Storage,BigTable和BigQuery集成在一起