我有一段代码可以对复数进行逐元素矩阵乘法。在计算期间,这部分将运行一百万次。根据性能测试,这部分约占总耗时的35%至40%。希望有人建议我可以得到更好的表现。谢谢。
理论上,基于BLAS的方法可用于改善性能。但是我试图用不同数量的线程来运行代码。没用这部分仍然花费相同的时间。代码如下:
( const_a * np.conj(a) * b
- const_b * np.conj(b) * b
+ const_c * np.conj(c) * c
... )