选择谷歌云工具来执行要求苛刻的python脚本

时间:2018-02-21 04:04:53

标签: google-cloud-platform google-cloud-datalab

我应该在哪里执行一个python脚本来处理GCS上可用的~7giga数据。输出也将写入GCS。 该脚本在具有小数据集的datalab笔记本上进行了调试。我想扩大处理范围。我应该分配一台大机器吗?我不知道需要什么尺寸(资源)的机器。

非常感谢, Eila

以防万一, 数据流不适用于那种数据处理

1 个答案:

答案 0 :(得分:0)

从我所读到的关于HDF5的内容来看,它似乎不容易并行化(请参阅Parallel HDF5和h5py multiprocessing_example)所以我假设读取〜7GB必须由我完成一个工人。

如果没有解决方法,并且在您正在使用的计算机上处​​理时没有遇到内存问题,我认为不需要upgrade your datalab instance