应用错误收集

时间：2012-02-28 12:48:31

标签： c++ cuda nvidia blas

我有一个特殊的问题。

我使用CUDA 4.1在Macbook上开发了一些研究代码，特别是使用batchedgemm。我现在必须在我从其他机构借出的一堆gpu上运行它。

我的问题是群集只安装了CUDA 4.0，他们不愿意快速升级。

有谁知道我是否可以在某处获得batchedgemm的源代码并将其编译为4.0以下的工作？

我已经编写了自己的内核来进行批量乘法，但它比图书馆的速度慢了大约10倍 - 我想站在伟人的肩膀而不是脚趾上。

答案 0 :(得分：2)

我理解不愿意快速升级生产集群。许多集群使用模块系统，这意味着CUDA工具包的多个版本可以共存。但是，驱动程序需要升级到支持最新CUDA的版本。这就是为什么他们不愿意，因为他们需要测试用户的生产代码和应用程序，以避免回归或失败。

由于CUBLAS不是开源的，我建议您尝试在单独的计算机上开发代码，如果从批处理中获得大幅提升，请将其作为升级的理由提供给管理员。