使用Google Cloud Platform数据融合(选项:dev)将大约300吨的数据传输到Big Query。
当前花费了34分钟才能处理大约16GB。处理6T数据大约需要10天。
可以在数据融合中修改哪些设置以在数据管道中快速执行ETL操作?
感谢您阅读。
答案 0 :(得分:1)
您可以做的是更改计算配置文件设置,该设置指定如何执行管道以及在何处执行管道。例如,配置文件包括云提供程序的类型,在云提供程序上使用的服务(例如Dataproc),资源(内存和CPU),图像,最小和最大节点数以及其他值。
详细了解CDAP documentation site上的个人资料。
选项之一是创建一个新的计算配置文件,该配置文件对工作程序内存具有更高的限制,或者为运行管道而覆盖工作程序内存:
System Admin
,然后单击Configuration
标签一旦创建了新的计算配置文件,请在管道详细信息视图中单击“配置”,然后选择新创建的计算配置文件,然后单击Save
,将计算配置文件连接到管道。
另外,请检查DataFsuion中的autoscaling选项。