应用错误收集

我有一个关于在ArrayFire for Python中使用多个主机线程的新手问题。我们目前有一个高度并行的CPU专用代码，使用Open MPI和mpi4py进行并行化。每个CPU线程执行大型矩阵乘法，通常多个线程同时相乘。我们希望通过使用ArrayFire在单个GPU上执行矩阵乘法来提高性能。

我试图弄清楚我们是否可以让多个CPU主机线程向GPU发送矩阵乘法作业，并让GPU同时执行这些乘法。或者，每个CPU主机线程必须等到GPU空闲才能将乘法作业发送到GPU吗？

我找不到答案，因为我不熟悉GPU计算的语言。我的印象是某些GPU支持并发内核执行，但我一直无法确定我们的GPU（Radeon Vega 10）是否支持。

有关如何使用ArrayFire for Python执行此类操作的任何一般提示或资源，我们将不胜感激。

GPU上的矩阵乘法速度非常快。切换到GPU进行矩阵数学通常是一个很好的决定。我将按顺序回答你的问题。请注意，我在此处所说的大多数内容适用于AMD和NVIDIA GPU。

是的，您可以启动多个主机线程，这些线程可以将相同内核的多个实例排入队列，而无需等待先前的作业完成。所有内核启动本质上都是异步的，因此将内核排入设备不会阻止执行。所有内核启动都将排入队列，以便将来在GPU上执行。现在，问题是所有这些内核是否会并发执行 - 这完全取决于单个内核实例所需的资源。如果GPU可以同时容纳两个内核执行，那么它将自动为您执行。内核启动所需的资源类型决定了这是启动的块数，共享内存，常量内存等。

并发内核执行完全取决于单个内核实例需要多少资源。此外，每个内核实例都必须在单独的队列（OpenCL队列）上启动，因为排队到同一队列的所有内核都按顺序执行。

为了有效地使用ArrayFire，我建议您阅读列出的here教程。要设置多个线程解决方案，您可以在单独的队列中启动每个内核，您可能必须专注于教程的以下两个部分，尤其是第二个部分。

数组和矩阵操作
OpenCL互操作性

文档中的大多数示例都是用C ++编写的，但一般原则也适用于python包装器。如果您有特定于python包装器的问题，可以发布它们here。

使用ArrayFire的多个主机线程

1 个答案: