与没有AVX和AVX2相比,使用AVX和AVX2的tensorflow-gpu有多快?

时间:2017-09-10 03:13:25

标签: performance tensorflow tensorflow-gpu

与没有AVX和AVX2相比,AVX和AVX2 tensorflow-gpu的速度有多快?

我尝试使用Google找到答案,但没有成功。对于Windows重新编译tensorflow-gpu很困难。所以,我想知道它是否值得。

1 个答案:

答案 0 :(得分:6)

如果您的计算是CPU上的一个巨大的计算,您将在Xeon V3上获得3倍的加速(参见基准here)。但是也有可能看不到加速,大概是因为没有足够的时间在CPU上执行高运算强度操作。

这是“高性能模型”指南中的表格,用于在CPU上训练resnet50并进行差异优化。看起来你可以通过最佳设置获得2.5加速

| Optimization | Data Format | Images/Sec   | Intra threads | Inter Threads |
:              :             : (step time)  :               :               :
| ------------ | ----------- | ------------ | ------------- | ------------- |
| AVX2         | NHWC        | 6.8 (147ms)  | 4             | 0             |
| MKL          | NCHW        | 6.6 (151ms)  | 4             | 1             |
| MKL          | NHWC        | 5.95 (168ms) | 4             | 1             |
| AVX          | NHWC        | 4.7 (211ms)  | 4             | 0             |
| SSE3         | NHWC        | 2.7 (370ms)  | 4             | 0             |

如果你能够为Windows编译一个优化版本,那么在这个问题中提及它会有所帮助 - https://github.com/yaroslavvb/tensorflow-community-wheels/issues/13,似乎对这种构建有一些需求