我有一个问题是理解GPU,更确切地说是GPU的哪一部分执行一个线程。 我已经理解了如何将线程分组为块和网格。 每个GPU都有一个或多个SM(流式多处理器)以及更多SP(流处理器或CUDA核心)。
据我所知,每个SM都会收到一个要执行的线程块 这是我如何看待事物的图片。 this is an example of how i see things 之后,网格被分成warp(32个线程)。 问题:
为什么我们使用网格如果它也被分割? (如果我有一个包含200个线程的网格,这将被分成32个线程并执行,那么什么是好的网格呢?)
每个SP执行一次线程?
每个SM执行一次warp一次?
答案 0 :(得分:2)
我认为你正在混合术语。层次结构是网格 - >块 - > warp - >螺纹: