标签: cuda
根据我们的教科书:Fermi SM最多可以使用1536个线程。
我们现在说我称之为内核:
kernel<<<8, 1024>>>();
如果8个块都在同一个SM中,那么因为1024 * 8&gt;所以不会有足够的线程。 1536.如果现在我改称这样的内核:
kernel<<<8, 10>>>();
然后所有块都可以放入同一个SM中。 (并节省资源?我不知道)。那么为什么我们不需要指定块是否在同一个SM中?