我正在使用gnumpy来加速在GPU上训练神经网络的一些计算。 我得到了理想的加速,但有点担心numpy(cpu)和gnumpy(gpu)的结果差异。
我有以下测试脚本来说明问题:
import gnumpy as gpu
import numpy as np
n = 400
a = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)
b = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)
ga = gpu.garray(a)
gb = gpu.garray(b)
ga = ga.dot(gb)
a = a.dot(b)
print ga.as_numpy_array(dtype=np.float32) - a
提供输出:
[[ 1.52587891e-05 -2.28881836e-05 2.28881836e-05 ..., -1.52587891e-05
3.81469727e-05 1.52587891e-05]
[ -5.34057617e-05 -1.52587891e-05 0.00000000e+00 ..., 1.52587891e-05
0.00000000e+00 1.52587891e-05]
[ -1.52587891e-05 -2.28881836e-05 5.34057617e-05 ..., 2.28881836e-05
0.00000000e+00 -7.62939453e-06]
...,
[ 0.00000000e+00 1.52587891e-05 3.81469727e-05 ..., 3.05175781e-05
0.00000000e+00 -2.28881836e-05]
[ 7.62939453e-06 -7.62939453e-06 -2.28881836e-05 ..., 1.52587891e-05
7.62939453e-06 1.52587891e-05]
[ 1.52587891e-05 7.62939453e-06 2.28881836e-05 ..., -1.52587891e-05
7.62939453e-06 3.05175781e-05]]
如您所见,差异大约为10 ^ -5。
所以问题是:我应该担心这些差异还是预期的行为?
其他信息:
当我使用渐变检查(使用有限差分近似)来验证我从numpy切换到gnumpy所做的小修改没有破坏任何东西时,我注意到了这个问题。正如人们可能预期的那样,梯度检查不能以32位精度工作(gnumpy不支持float64),但令我惊讶的是,当使用相同的精度时,CPU和GPU之间的误差不同。
下面给出了小型测试神经网络上CPU和GPU的错误:
由于误差幅度相似,我猜这些差异可以吗?
在阅读BenC评论中引用的article之后,我很确定这些差异主要是由使用融合乘法 - 加法(FMA)指令的其中一个设备解释的,而另一个则不是
我实施了论文中的例子:
import gnumpy as gpu
import numpy as np
a=np.array([1.907607,-.7862027, 1.147311, .9604002], dtype=np.float32)
b=np.array([-.9355000, -.6915108, 1.724470, -.7097529], dtype=np.float32)
ga = gpu.garray(a)
gb = gpu.garray(b)
ga = ga.dot(gb)
a = a.dot(b)
print "CPU", a
print "GPU", ga
print "DIFF", ga - a
>>>CPU 0.0559577
>>>GPU 0.0559577569366
>>>DIFF 8.19563865662e-08
...而且差异类似于FMA与串行算法(尽管由于某种原因,两种结果都与确切的结果不同于本文)。
我正在使用的GPU(GeForce GTX 770)支持FMA指令,而CPU则不支持(我有一个Ivy Bridge英特尔®至强®(英文版)CPU E3-1225 V2,但英特尔在其产品中引入了FMA3指令的Haswell)。
其他可能的解释包括后台使用的不同数学库或操作顺序的差异,例如,CPU与GPU上的不同并行化级别。
答案 0 :(得分:11)
我建议使用np.allclose
来测试两个float数组是否几乎相等。
虽然您只查看两个结果数组中值之间的绝对差异,但np.allclose
也会考虑其相对差异。例如,假设输入数组中的值大1000倍 - 那么两个结果之间的绝对差异也将大1000倍,但这并不意味着两个点产品的精确度就更低了。
np.allclose
和True
中的每对相应元素满足以下条件时, a
才会返回b
:
abs(a - b) <= (atol + rtol * abs(b))
默认情况下,rtol=1e-5
和atol=1e-8
。这些公差是一个很好的“经验法则”,但是在它们的情况下它们是否足够小将取决于您的特定应用。例如,如果您正在处理值&lt; 1e-8,那么1e-8的绝对差异将是一场灾难!
如果您尝试使用默认容差在两个结果上调用np.allclose
,则会发现np.allclose
返回True
。我的猜测是,这些差异可能足够小,以至于他们不值得担心。这实际上取决于你对结果做了什么。
答案 1 :(得分:0)
RTX卡的浮点数为半精度,因为它的图像渲染速度更快。将AI的浮点数相乘时,必须告诉GPU使用全精度。做AI时,精确度非常重要。
当您尝试将Cuda与RTX 2080 Ti一起使用时,我遇到了与浮点数相同的情况。