我们刚刚收到了CUDA 5的稳定版本。有一些像Kepler这样的新术语,能够使用性能更好的MPI,同时运行32个应用程序的同一张卡。我有点困惑,并寻找这些问题的答案:
我发现了一些像
这样的文件然而,更好,简短的描述可能会使我们的思想更清晰。
PS:请不要限制上述问题的答案。我可能会遗漏一些类似的问题。
答案 0 :(得分:5)
动态并行性需要计算能力3.5(例如GK110),因为早期的GPU没有线程启动内核或直接将其他API调用注入硬件命令队列所需的硬件。
Hyper-Q需要计算能力3.5。
SHFL内在函数需要CC 3.0(GK104)
CUDA 5中的设备代码链接,NSight EE,nvprof,性能改进和错误修复使Fermi和早期的GPU受益。