标签: caching matrix multiplication
我正在尝试使用切片优化矩阵矩阵乘法。我要面对的问题是,当n不是块大小的倍数时,如何以这种方式进行乘法。例如,在7 x 7矩阵中,没有要使用的适当大小的块将被平均分成7个。那么,例如,我如何才能使用大小为4的块并进行适当的计算呢?