标签: cuda
我有GTX 780 Nvidia GPU。根据规范,它具有3.5的计算能力,每个处理器有16个块,每个多处理器的最大线程数是2048.因此,为了充分利用每个多处理器,我已计算出
要使用的总线程数= 2048/16 = 128
128是调用kernel.like
CalcTemperatureFactor_Kernel<<<250,128,0,Stream>>>(ComputeParticleNum);
但使用256或128显示执行时间没有任何影响???