我编写了一个非常简单的代码,它包含了使用Fortran和Python的数组求和。当我使用shell提交多个(独立)作业时,当线程数大于1时,将会出现明显的减速。
我的代码的Fortran版本如下所示
program main
implicit none
real*8 begin, end, Ht(2, 2), ls(4)
integer i, j, k, ii, jj, kk
integer,parameter::N_tiles = 20
integer,parameter::N_tilings = 100
integer,parameter::max_t_steps = 50
real*8,dimension(N_tiles*N_tilings,max_t_steps,5)::test_e, test_theta
real*8 rand_val
call random_seed()
do i = 1, N_tiles*N_tilings
do j = 1, max_t_steps
do k = 1, 5
call random_number(rand_val)
test_e(i, j, k) = rand_val
call random_number(rand_val)
test_theta(i, j, k) = rand_val
end do
end do
end do
call CPU_TIME(begin)
do i = 1, 1001
do j = 1, 50
test_theta = test_theta+0.5d0*test_e
end do
end do
call CPU_TIME(end)
write(*, *) 'total time cost is : ', end-begin
end program main
和shell-scipt
如下所示
#!/bin/bash
gfortran -o result test.f90
nohup ./result &
nohup ./result &
nohup ./result &
正如我们所看到的,主要操作是数组test_theta
和test_e
的总和。这些数组不大(大约3MB),我的计算机的内存空间足以完成这项工作。我的工作站有6个核心,12个线程。我尝试一次使用shell提交1,2,3,4和5个作业,时间成本如下:
| #jobs | 1 | 2 | 3 | 4 | 5 |
| time(s) | 21 | 31 | 161 | 237 | 357 |
一旦线程数小于我们拥有的核心数,我希望n线程作业的时间应该与单线程作业相同,这对我的计算机来说是6。但是,我们发现这里显着放缓。
当我使用Python实现相同的任务时,这个问题仍然存在
import numpy as np
import time
N_tiles = 20
N_tilings = 100
max_t_steps = 50
theta = np.ones((N_tiles*N_tilings, max_t_steps, 5), dtype=np.float64)
e = np.ones((N_tiles*N_tilings, max_t_steps, 5), dtype=np.float64)
begin = time.clock()
for i in range(1001):
for j in range(50):
theta += 0.5*e
end = time.clock()
print('total time cost is {} s'.format(end-begin))
我不知道原因,我想知道它是否与CPU的L3缓存大小有关。也就是说,缓存对于这样的多线程作业来说太小了。也许它也与所谓的“虚假共享”问题有关。我该如何解决这个问题?
这个问题与前一个dramatic slow down using multiprocess and numpy in python有关,我在这里发布一个简单而典型的例子。
答案 0 :(得分:0)
多次运行时代码可能很慢,因为有越来越多的内存必须通过有限的带宽内存总线。
如果只运行一个进程,一次只能运行一个数组,但启用OpenMP线程,可以加快速度:
integer*8 :: begin, end, rate
...
call system_clock(count_rate=rate)
call system_clock(count=begin)
!$omp parallel do
do i = 1, 1001
do j = 1, 50
test_theta = test_theta+0.5d0*test_e
end do
end do
!$omp end parallel do
call system_clock(count=end)
write(*, *) 'total time cost is : ', (end-begin)*1.d0/rate
在四核CPU上:
> gfortran -O3 testperformance.f90 -o result
> ./result
total time cost is : 15.135917384000001
> gfortran -O3 testperformance.f90 -fopenmp -o result
> ./result
total time cost is : 3.9464441830000001