使用cuBLAS-XT获得大输入大小

时间:2016-11-05 15:41:14

标签: cuda cublas

This link  cuBLAS-XT例程提供了核外操作 - 操作数数据的大小仅受系统内存大小的限制,而不受GPU板载内存大小的限制。这意味着只要输入数据可以存储在CPU内存中并且输出大小大于GPU内存大小,我们就可以使用cuBLAS-XT功能,对吗?

另一方面,this link说“在非常大的问题的情况下,cublasXt API提供了将一些计算卸载到主机CPU的可能性”和“Currenty,只有例程cublasXtgemm()支持此功能。这是输入大小大于CPU内存大小的问题吗?

我没有区分这两者!如果有人帮我理解其中的差异,我感激不尽。

1 个答案:

答案 0 :(得分:4)

cublasXt的目的是允许在多个GPU上自动运行操作。因此,例如,矩阵乘法或其他支持的操作可以在多个GPU上运行。

cublasXtgemm例程具有特殊功能,除了在2个或更多GPU上并行化矩阵之外,它还可以在2个或更多GPU上并行化 PLUS 使用主机CPU作为额外的计算引擎。

如所讨论的here,矩阵乘法问题很容易分解。如果你只在GPU上运行所有“工作块”,那就是cublasXtgemm的普通功能(只使用GPU)。如果您在GPU上运行除了一个工作块之外的所有工作并在CPU上运行其中一个工作块,那就是特殊功能。