应用错误收集

我来自传统的matlab编程背景，但是试图跳到python。在MATLAB中，类似于numpy，当您对1 x M和N x 1矩阵进行按元素操作时，它可以处理自动的“广播”，这应该会产生N x M的结果矩阵。

根据我使用matlab gpuArray的测试，它会自动处理广播以优化内存。当我尝试使用numda.cuda.jit时，在同一GPU上遇到内存问题。没有人知道自动减少阵列广播的库或方法，这样我就不需要沿其单例维度复制每个阵列吗？