大多数编译器是否优化MATMUL(TRANSPOSE(A),B)?

时间:2019-03-18 13:18:05

标签: fortran gfortran intel-fortran micro-optimization

在Fortran程序中,我需要计算几个表达式,例如 M · v M T · v M T · M ,< strong> M · M T ,等等... 此处, M v 是尺寸较小(小于100,通常为2-10)的2D和1D阵列

我想知道编写MATMUL(TRANSPOSE(M),v)是否会在编译时展开成与MATMUL(N,v)一样高效的某些代码,其中N被显式存储为N=TRANSPOSE(M)。我对带有“强”优化标志(例如-O2,-O3或-Ofast)的gnu和ifort编译器特别感兴趣。

1 个答案:

答案 0 :(得分:5)

下面您会发现几种方法的执行时间。

  

系统:

     
      
  • Intel(R)CoreTM i5-6500T CPU @ 2.50GHz
  •   
  • 缓存大小:6144 KB
  •   
  • RAM:16MB
  •   
  • GNU Fortran(GCC)6.3.1 20170216(Red Hat 6.3.1-3)
  •   
  • ifort(IFORT)18.0.5 20180823
  •   
  • BLAS:对于gnu编译器,使用的blas是默认版本
  •   
     

编译:

[gnu] $ gfortran -O3 x.f90 -lblas
[intel] $ ifort -O3 -mkl x.f90
     

执行:

[gnu] $ ./a.out > matmul.gnu.txt
[intel] $ EXPORT MKL_NUM_THREADS=1; ./a.out > matmul.intel.txt

为了使结果尽可能中性,我用一组等效操作的平均时间重新调整了答案。 我忽略了线程处理。

矩阵乘以向量

比较了六个不同的实现:

  1. 手册: do j=1,n; do k=1,n; w(j) = P(j,k)*v(k); end do; end do
  2. matmul: matmul(P,v)
  3. blas N: dgemv('N',n,n,1.0D0,P,n,v,1,0,w,1)
  4. matmul-transpose: matmul(transpose(P),v)
  5. matmul-transpose-tmp: Q=transpose(P); w=matmul(Q,v)
  6. blas T: dgemv('T',n,n,1.0D0,P,n,v,1,0,w,1)

在图1和图2中,您可以比较上述情况的时序结果。总的来说,我们不建议在gfortranifort中使用临时选项。两种编译器都能更好地优化MATMUL(TRANSPOSE(P),v)。在gfortran中,MATMUL的实现比默认的BLAS更快,ifort清楚地表明mkl-blas更快。

enter image description here 图1:矩阵向量乘法。各种实现的比较在gfortran上进行。左面板显示绝对时间除以手动计算的总时间(对于大小为1000的系统)。右面板显示绝对时间除以n2×δ。 δ是大小为1000的手动计算的平均时间除以1000×1000。

enter image description here 图2:矩阵向量乘法。各种实现的比较是在单线程ifort编译上进行的。左面板显示绝对时间除以手动计算的总时间(对于大小为1000的系统)。右面板显示绝对时间除以n2×δ。 δ是大小为1000的手动计算的平均时间除以1000×1000。

矩阵乘以矩阵

比较了六个不同的实现:

  1. 手册: do l=1,n; do j=1,n; do k=1,n; Q(j,l) = P(j,k)*P(k,l); end do; end do; end do
  2. matmul: matmul(P,P)
  3. blas N: dgemm('N','N',n,n,n,1.0D0,P,n,P,n,0.0D0,R,n)
  4. matmul-transpose: matmul(transpose(P),P)
  5. matmul-transpose-tmp: Q=transpose(P); matmul(Q,P)
  6. blas T: dgemm('T','N',n,n,n,1.0D0,P,n,P,n,0.0D0,R,n)

在图3和图4中,您可以比较上述情况的时序结果。与向量情况相反,仅建议将临时情况用于gfortran。在gfortran中,MATMUL的实现比默认BLAS更快,ifort清楚地表明mkl-blas更快。值得注意的是,手动实现与mkl-blas相当。

enter image description here 图3:矩阵矩阵乘法。各种实现的比较在gfortran上进行。左面板显示绝对时间除以手动计算的大小为1000的系统的总时间。右面板显示绝对时间除以n3×δ。 δ是手动计算大小1000的平均时间除以1000×1000×1000的时间。

enter image description here 图4 :矩阵矩阵乘法。各种实现的比较是在单线程ifort编译上进行的。左面板显示绝对时间除以手动计算的大小为1000的系统的总时间。右面板显示绝对时间除以n3×δ。 δ是手动计算大小1000的平均时间除以1000×1000×1000的时间。


使用的代码:

program matmul_test

  implicit none

  double precision, dimension(:,:), allocatable :: P,Q,R
  double precision, dimension(:), allocatable :: v,w

  integer :: n,i,j,k,l
  double precision,dimension(12) :: t1,t2

  do n = 1,1000
     allocate(P(n,n),Q(n,n), R(n,n), v(n),w(n))
     call random_number(P)
     call random_number(v)

     i=0

     i=i+1
     call cpu_time(t1(i))
     do j=1,n; do k=1,n; w(j) = P(j,k)*v(k); end do; end do
     call cpu_time(t2(i))

     i=i+1
     call cpu_time(t1(i))
     w=matmul(P,v)
     call cpu_time(t2(i))

     i=i+1
     call cpu_time(t1(i))
     call dgemv('N',n,n,1.0D0,P,n,v,1,0,w,1)
     call cpu_time(t2(i))

     i=i+1
     call cpu_time(t1(i))
     w=matmul(transpose(P),v)
     call cpu_time(t2(i))

     i=i+1
     call cpu_time(t1(i))
     Q=transpose(P)
     w=matmul(Q,v)
     call cpu_time(t2(i))

     i=i+1
     call cpu_time(t1(i))
     call dgemv('T',n,n,1.0D0,P,n,v,1,0,w,1)
     call cpu_time(t2(i))

     i=i+1
     call cpu_time(t1(i))
     do l=1,n; do j=1,n; do k=1,n; Q(j,l) = P(j,k)*P(k,l); end do; end do; end do
     call cpu_time(t2(i))

     i=i+1
     call cpu_time(t1(i))
     Q=matmul(P,P)
     call cpu_time(t2(i))

     i=i+1
     call cpu_time(t1(i))
     call dgemm('N','N',n,n,n,1.0D0,P,n,P,n,0.0D0,R,n)
     call cpu_time(t2(i))

     i=i+1
     call cpu_time(t1(i))
     Q=matmul(transpose(P),P)
     call cpu_time(t2(i))

     i=i+1
     call cpu_time(t1(i))
     Q=transpose(P)
     R=matmul(Q,P)
     call cpu_time(t2(i))

     i=i+1
     call cpu_time(t1(i))
     call dgemm('T','N',n,n,n,1.0D0,P,n,P,n,0.0D0,R,n)
     call cpu_time(t2(i))

     write(*,'(I6,12D25.17)') n, t2-t1
     deallocate(P,Q,R,v,w)
  end do

end program matmul_test