标签: cuda machine-learning gpu multi-gpu
我目前正在为GPU集群开发机器学习工具包。 我在多个GPU上测试了逻辑回归分类器。
我正在使用Master-Worker方法,其中主CPU创建多个POSIX线程,矩阵在GPU之间分配。
但我遇到的问题是如何存储无法存储在一台机器上的大型矩阵。是否有任何库或方法在节点之间共享数据?
答案 0 :(得分:1)
我不确定你的矩阵有多大,但你应该检查几周前发布的CUDA 4.0。其中一个主要功能是跨多个CUDA设备/ GPU的共享内存