我有一个关于在ArrayFire for Python中使用多个主机线程的新手问题。我们目前有一个高度并行的CPU专用代码,使用Open MPI和mpi4py进行并行化。每个CPU线程执行大型矩阵乘法,通常多个线程同时相乘。我们希望通过使用ArrayFire在单个GPU上执行矩阵乘法来提高性能。
我试图弄清楚我们是否可以让多个CPU主机线程向GPU发送矩阵乘法作业,并让GPU同时执行这些乘法。或者,每个CPU主机线程必须等到GPU空闲才能将乘法作业发送到GPU吗?
我找不到答案,因为我不熟悉GPU计算的语言。我的印象是某些GPU支持并发内核执行,但我一直无法确定我们的GPU(Radeon Vega 10)是否支持。
有关如何使用ArrayFire for Python执行此类操作的任何一般提示或资源,我们将不胜感激。
答案 0 :(得分:1)
GPU上的矩阵乘法速度非常快。切换到GPU进行矩阵数学通常是一个很好的决定。我将按顺序回答你的问题。请注意,我在此处所说的大多数内容适用于AMD和NVIDIA GPU。
是的,您可以启动多个主机线程,这些线程可以将相同内核的多个实例排入队列,而无需等待先前的作业完成。所有内核启动本质上都是异步的,因此将内核排入设备不会阻止执行。所有内核启动都将排入队列,以便将来在GPU上执行。现在,问题是所有这些内核是否会并发执行 - 这完全取决于单个内核实例所需的资源。如果GPU可以同时容纳两个内核执行,那么它将自动为您执行。内核启动所需的资源类型决定了这是启动的块数,共享内存,常量内存等。
并发内核执行完全取决于单个内核实例需要多少资源。此外,每个内核实例都必须在单独的队列(OpenCL队列)上启动,因为排队到同一队列的所有内核都按顺序执行。
为了有效地使用ArrayFire,我建议您阅读列出的here教程。要设置多个线程解决方案,您可以在单独的队列中启动每个内核,您可能必须专注于教程的以下两个部分,尤其是第二个部分。
文档中的大多数示例都是用C ++编写的,但一般原则也适用于python包装器。如果您有特定于python包装器的问题,可以发布它们here。