现在CUDA允许在全局内存上进行动态分配。但是,我找不到任何对malloc
函数的可伸缩性的引用:它是否比例如预先分配一块内存然后通过原子递增a将下一个内存chuck分配给一个线程更好。全局整数?最后一个“自制”解决方案有效,但可伸缩性存在明显问题,所以我想知道malloc
是否会以某种方式解决这个问题。
答案 0 :(得分:0)
我认为虽然你的“自制”解决方案目前可能同样出色,但是对全局整数的并发调用可能会降低速度,但Malloc将是我的选择。
这是因为它允许Nvidia处理可伸缩性的问题并在硬件或软件实现中进行改进,您可以通过以后重新编译代码来利用它。