在Google Dataflow中,我的工作基本上看起来像这样:
数据集:100行1列。
配方:0步
输出:新表。
但是运行需要6到8分钟。可能是什么问题?
答案 0 :(得分:1)
通常,时间以分钟为单位,而不是以秒为单位进行Dataprep / dataflow设置。 这些解决方案适用于大型数据集,即使大小为10倍,持续时间也保持不变。
DataPrep为您创建一个DataFlow工作流程,并为您配置一些VM,这很费时间,通常该阶段可能在几分钟之内。不久之后,它最多可以扩展到50或1000个盒子。