应用错误收集

多个系统中的并行处理：如何更改“ cifar10_multi_gpu_train.py”代码以利用系统的所有GPU？

时间：2018-12-19 15:09:45

标签： python-3.x tensorflow gpu cluster-computing

我正在研究 CIFAR10 模型，并使用“ cifar10_multi_gpu_train.py ”代码进行培训。当我在具有多个GPU（2个GPU）的SINGLE系统中运行此代码时，则我没有遇到任何错误而不是内存问题（因为我的数据集很大并且将批处理大小设置为128）。 但是当我在具有多个（大约12个）系统且每个系统具有1个GPU的CLUSTER中运行相同的代码时，就会出现问题。我很好奇我如何更改“ cifar10_multi_gpu_train.py ”代码，这样我就可以利用系统的所有GPU？

0 个答案:

没有答案

如何在多个GPU上扩展cholesky分解
如何有效地对阵列进行排序以利用多个CPU？
如何在Matlab中最多地利用多线程CPU？
所有Divide and Conquer算法都能利用并行性吗？
如何并行化此代码？
CUDA：我需要多个GPU上的不同流并行执行吗？
如何让我的Luigi调度程序利用并行调度标志的多个内核？
处理pytorch代码时如何利用所有GPU？
多个系统中的并行处理：如何更改“ cifar10_multi_gpu_train.py”代码以利用系统的所有GPU？
具有少量GPU的多个CPU生产者未使用100％的GPU（pytorch）

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？