标签: c++ optimization x86 vectorization intel-mkl
我有一个矩阵(或2d数组,如果你愿意)我需要计算它的总和,然后用这个向量划分所有矩阵行 - 标准化的形式。目前,我正在使用MKL vsAdd例程对每一行求和,然后我将矩阵中的每一行与MKL vsDiv除以我得到的总和。这是我计划中最热门的一点。有任何想法如何使用任何工具优化这个? (矩阵的大小是10 * 52)