数据流和小型数据集

时间:2018-11-05 18:45:41

标签: google-cloud-dataflow dataflow

我正在使用Cloud Dataflow将数据加载到Cloud SQL中。一些负载包括对小型数据集的简单转换。我注意到Cloud Dataflow需要花费时间来分配VM来进行处理。有什么方法可以为云数据流定义专用的VM?还是每次运行作业都必须启动VM?云数据流对小型数据集有用吗?还是仅在我们必须处理大型数据集时才使用它?

1 个答案:

答案 0 :(得分:1)

数据流不能使用专用的VM,并且更新管道可能需要花费全部的设置时间才能进行。从启动一堆流作业开始,我发现它们大约需要4分钟才能持续从PubSub中拉出。对于小型数据集,您可能会发现在一台机器上,在与SQL数据库相同的区域中的GCE实例上使用本地运行程序更快。

如果您正在使用小型数据集,并且不打算实际扩展到非常大的数据集,则可能会使用Shell命令来处理数据,这比运行Dataflow作业要快得多,也更便宜。

A great article about avoiding large data tools when you don't have large data.