我应该在哪里执行一个python脚本来处理GCS上可用的~7giga数据。输出也将写入GCS。 该脚本在具有小数据集的datalab笔记本上进行了调试。我想扩大处理范围。我应该分配一台大机器吗?我不知道需要什么尺寸(资源)的机器。
非常感谢, Eila
以防万一, 数据流不适用于那种数据处理
答案 0 :(得分:0)
从我所读到的关于HDF5的内容来看,它似乎不容易并行化(请参阅Parallel HDF5和h5py multiprocessing_example)所以我假设读取〜7GB必须由我完成一个工人。
如果没有解决方法,并且在您正在使用的计算机上处理时没有遇到内存问题,我认为不需要upgrade your datalab instance。