标签: opencl matrix-multiplication gpu-programming
我尝试使用现有的OpenCL BLAS库,如clBLAS,CLBlast,ARM计算库,用于GEMM操作(矩阵乘法)。但是他们的表现在这些GPU上似乎是次优的。
是否有适用于移动GPU的样本自定义GEMM实施,例如Mali& Adreno GPU提供了良好的性能?