转换为pycuda.gpuarray
时,为什么转置矩阵的外观不同?
你可以重现这个吗?什么可能导致这个?我使用了错误的方法吗?
示例代码
from pycuda import gpuarray
import pycuda.autoinit
import numpy
data = numpy.random.randn(2,4).astype(numpy.float32)
data_gpu = gpuarray.to_gpu(data.T)
print "data\n",data
print "data_gpu.get()\n",data_gpu.get()
print "data.T\n",data.T
输出
data
[[ 0.70442784 0.08845157 -0.84840715 -1.81618035]
[ 0.55292499 0.54911566 0.54672164 0.05098847]]
data_gpu.get()
[[ 0.70442784 0.08845157]
[-0.84840715 -1.81618035]
[ 0.55292499 0.54911566]
[ 0.54672164 0.05098847]]
data.T
[[ 0.70442784 0.55292499]
[ 0.08845157 0.54911566]
[-0.84840715 0.54672164]
[-1.81618035 0.05098847]]
答案 0 :(得分:6)
基本原因是numpy转置只创建一个视图,它对底层数组存储没有影响,而且是当对设备内存执行复制时PyCUDA直接访问的存储。解决方案是在执行转置时使用copy
方法,这将在主机内存中以转置顺序创建一个包含数据的数组,然后将其复制到设备:
data_gpu = gpuarray.to_gpu(data.T.copy())
答案 1 :(得分:5)
在numpy中,data.T
对基础1D数组没有任何作用。它只是操纵步幅来获得转置。这使它成为一个恒定时间和恒定存储器操作。
pycuda.to_gpu()
似乎不尊重步幅,只是复制底层的一维数组。这将产生您正在观察的确切行为。
在我看来,您的代码没有任何问题。相反,我认为这是pycuda
中的一个错误。
我已经google了一下,找到了a thread that discusses this issue in detail。
作为解决方法,您可以尝试将numpy.ascontiguousarray(data.T)
传递给gpuarray.to_gpu()
。当然,这将在主机RAM中创建第二个数据副本。