应用错误收集

时间：2016-11-05 15:41:14

标签： cuda cublas

This link cuBLAS-XT例程提供了核外操作 - 操作数数据的大小仅受系统内存大小的限制，而不受GPU板载内存大小的限制。这意味着只要输入数据可以存储在CPU内存中并且输出大小大于GPU内存大小，我们就可以使用cuBLAS-XT功能，对吗？

另一方面，this link说“在非常大的问题的情况下，cublasXt API提供了将一些计算卸载到主机CPU的可能性”和“Currenty，只有例程cublasXtgemm（）支持此功能。这是输入大小大于CPU内存大小的问题吗？

我没有区分这两者！如果有人帮我理解其中的差异，我感激不尽。

答案 0 :(得分：4)

cublasXt的目的是允许在多个GPU上自动运行操作。因此，例如，矩阵乘法或其他支持的操作可以在多个GPU上运行。

cublasXtgemm例程具有特殊功能，除了在2个或更多GPU上并行化矩阵之外，它还可以在2个或更多GPU上并行化 PLUS 使用主机CPU作为额外的计算引擎。

如所讨论的here，矩阵乘法问题很容易分解。如果你只在GPU上运行所有“工作块”，那就是cublasXtgemm的普通功能（只使用GPU）。如果您在GPU上运行除了一个工作块之外的所有工作并在CPU上运行其中一个工作块，那就是特殊功能。