标签: cuda parallel-processing
假设一个线程块包含1000个线程,而一个Streaming多处理器(SM)只能执行500个线程,那么我的线程块应该映射到2个或更多个SM。那么他们如何访问共享内存?
答案 0 :(得分:3)
.....然后我的线程块应映射到2个或更多SM。
这是不正确的。块只能在其整个生命周期中映射到单个多处理器。块不可能分割为多个SM。
如果尝试启动内核,其中块大小或资源要求超过了必须运行的多处理器的内核,则启动将失败,内核将永远不会运行。