假设您要执行两个和:一个是10个标量变量的总和,和 一个是一对二维阵列的矩阵和,其尺寸为10×10。 现在让我们假设只有矩阵和是可并行化的;使用10对40处理器可以获得什么加速?
我的理解:
10x10矩阵+10个标量变量= 110t
使用10个处理器,(100/10)t + 10t = 20t
提速= 110/20 = 5.5;
使用40个处理器,(100/40)t + 10t = 12.5t
提速= 110 / 12.5 = 8.8;
在解决方案书中我们得到了10个处理器的潜在加速 55%,但只有 22% 40个。
我理解55%,但这22%是怎么来的?