如何加快GCP数据融合(数据管道)?

时间:2020-10-19 06:35:47

标签: google-cloud-platform google-cloud-data-fusion

使用Google Cloud Platform数据融合(选项:dev)将大约300吨的数据传输到Big Query。

当前花费了34分钟才能处理大约16GB。处理6T数据大约需要10天。

可以在数据融合中修改哪些设置以在数据管道中快速执行ETL操作?

感谢您阅读。

1 个答案:

答案 0 :(得分:1)

您可以做的是更改计算配置文件设置,该设置指定如何执行管道以及在何处执行管道。例如,配置文件包括云提供程序的类型,在云提供程序上使用的服务(例如Dataproc),资源(内存和CPU),图像,最小和最大节点数以及其他值。

详细了解CDAP documentation site上的个人资料。

选项之一是创建一个新的计算配置文件,该配置文件对工作程序内存具有更高的限制,或者为运行管道而覆盖工作程序内存:

  1. 单击右上角的System Admin,然后单击Configuration标签
  2. 点击“系统计算”配置文件
  3. 点击创建新的个人资料
  4. 选择Cloud Dataproc
  5. 将项目ID和服务帐户密钥保留为空
  6. 输入所需的工作节点配置
  7. 点击保存

一旦创建了新的计算配置文件,请在管道详细信息视图中单击“配置”,然后选择新创建的计算配置文件,然后单击Save,将计算配置文件连接到管道。

另外,请检查DataFsuion中的autoscaling选项。