应用错误收集

选择谷歌云工具来执行要求苛刻的python脚本

时间：2018-02-21 04:04:53

标签： google-cloud-platform google-cloud-datalab

我应该在哪里执行一个python脚本来处理GCS上可用的~7giga数据。输出也将写入GCS。该脚本在具有小数据集的datalab笔记本上进行了调试。我想扩大处理范围。我应该分配一台大机器吗？我不知道需要什么尺寸（资源）的机器。

非常感谢， Eila

以防万一，数据流不适用于那种数据处理

1 个答案:

答案 0 :(得分：0)

从我所读到的关于HDF5的内容来看，它似乎不容易并行化（请参阅Parallel HDF5和h5py multiprocessing_example）所以我假设读取〜7GB必须由我完成一个工人。

如果没有解决方法，并且在您正在使用的计算机上处理时没有遇到内存问题，我认为不需要upgrade your datalab instance。