我有一个特殊的问题。
我使用CUDA 4.1在Macbook上开发了一些研究代码,特别是使用batchedgemm
。我现在必须在我从其他机构借出的一堆gpu上运行它。
我的问题是群集只安装了CUDA 4.0,他们不愿意快速升级。
有谁知道我是否可以在某处获得batchedgemm的源代码并将其编译为4.0以下的工作?
我已经编写了自己的内核来进行批量乘法,但它比图书馆的速度慢了大约10倍 - 我想站在伟人的肩膀而不是脚趾上。
答案 0 :(得分:2)
我理解不愿意快速升级生产集群。许多集群使用模块系统,这意味着CUDA工具包的多个版本可以共存。但是,驱动程序需要升级到支持最新CUDA的版本。这就是为什么他们不愿意,因为他们需要测试用户的生产代码和应用程序,以避免回归或失败。
由于CUBLAS不是开源的,我建议您尝试在单独的计算机上开发代码,如果从批处理中获得大幅提升,请将其作为升级的理由提供给管理员。