我试图理解what it takes to support fast vectorized linear algebra computations for matrices and vectors of arbitrary size。根据我对x86处理器体系结构的理解,它们包含special registers of limited size。这些寄存器允许加载浮点数,并在寄存器中广播操作。你如何有效地绕过有限的尺寸?
我正在查看OpenBLAS源代码来解决这个问题,但是尽管查看了dev docs,但无法找出gemv
等简单操作的一般流程。 / p>