标签: python gpu numba gpu-programming
我来自传统的matlab编程背景,但是试图跳到python。在MATLAB中,类似于numpy,当您对1 x M和N x 1矩阵进行按元素操作时,它可以处理自动的“广播”,这应该会产生N x M的结果矩阵。
根据我使用matlab gpuArray的测试,它会自动处理广播以优化内存。当我尝试使用numda.cuda.jit时,在同一GPU上遇到内存问题。没有人知道自动减少阵列广播的库或方法,这样我就不需要沿其单例维度复制每个阵列吗?