我估算英特尔CPU最大FLOP / s的公式是
Max SP FLOPs/s = frequencey * 4 SSE(8AVX) * 2 (MAC) * number of cores (not HW threads)
Max DP FLOPs/s = 0.5 * Max SP FLOPs/s
通过MAC我的意思是CPU可以同时进行一次SSE(AVX)乘法和加法。在系统上,我使用负载下的最大频率是2.66 GHz。它只有SSE,并且核心数(不是硬件线程)是4.这给出:最大SP FLOPs / s = 85.12 GFLOPs / s。
矩阵乘法的FLOP数量约为2*n*m*k
。对于n = 1000的方阵,即2 * 10E9 FLOP(20亿FLOP)。一旦我知道我可以估算FLOPs的时间。
然而,我能为自己的代码获得的最好的是大约40 SP GFLOPs / s,例如n = 1000。我和Eigen得到了相同的结果。效率约为45%。我的计算是最大的错误吗?对于大型密集矩阵乘法,英特尔CPU的最佳效率是多少?有没有人有一篇论文描述这个?
我知道在GPU上效率可以超过60%。 http://www.anandtech.com/show/6774/nvidias-geforce-gtx-titan-part-2-titans-performance-unveiled/3
编辑: 我得到类似的结果n = 500,它很容易适合我系统的12MB L3缓存,因此缓存似乎不是限制因素(尽管我可以更有效地使用它)。
EDIT2: Eigen Benchmarks表明它与MKL(对于SSE)一样好。他们使用Intel(R)Core(TM)2 Quad CPU Q9400 @ 2.66GHz。所以2.66 * 2(DP SSE)* 2 MAC * 4核= 42.25 DP GFLOPs / s。你可以在情节上看到他们都少于20岁。有45%的人喜欢我。 http://eigen.tuxfamily.org/index.php?title=Benchmark
http://ark.intel.com/products/35365/Intel-Core2-Quad-Processor-Q9400-6M-Cache-2_66-GHz-1333-MHz-FSB
EDIT3: 这是我关心的任何人的代码。我可以得到比这更好的结果,但不是更好。我正在使用Agner Fog的矢量类用于SEE / AVX。并将Vec8f设置为float8,将Vec4d设置为double4
//SGEMM and AVX call MM_tile<float, float8>(nthreads, a, b, c, n, m, k);
template <typename ftype, typename floatn>
void GEMM_tile(const int nthreads, const ftype*A , const ftype* B, ftype* C, const int N, const int M, const int K) {
for(int i=0; i<N; i++) {
for(int j=0; j<K; j++) {
C[K*i + j] = 0;
}
}
const int nc = 32;
const int kc = 32;
const int mc = 32;
omp_set_num_threads(nthreads);
#pragma omp parallel for if(nthreads>1)
for(int ii=0; ii<N; ii+=nc) {
for(int jj=0; jj<K; jj+=kc)
for(int ll=0; ll<M; ll+=mc) {
const int nb = min(N-ii, nc);
const int kb = min(K-jj, kc);
const int mb = min(M-ll, mc);
MM_block<ftype, floatn>(nb, mb, kb, &A[M*ii+ll], N, &B[K*ll+jj], K, &C[K*ii+jj], K );
}
}
}
template <typename ftype, typename floatn>
void MM_block(int n, int m, int k, const ftype *a, const int stridea,
const ftype *b, const int strideb,
ftype *c, const int stridec ) {
const int vec_size = sizeof(floatn)/sizeof(ftype);
for(int i=0; i<n; i+=4) {
for(int j=0; j<k; j+=vec_size) {
Dot4x4_vec_block<ftype, floatn>(m, &a[strideb*i], &b[j], &c[stridec*i + j], stridea, strideb, stridec);
}
}
template <typename ftype, typename floatn>
inline void Dot4x4_vec_block(const int n, const ftype *a, const ftype *b, ftype *c, const int stridea, const int strideb, const int stridec) {
floatn tmp0, tmp1, tmp2, tmp3;
load(tmp0, &c[stridec*0]);
load(tmp1, &c[stridec*1]);
load(tmp2, &c[stridec*2]);
load(tmp3, &c[stridec*3]);
ftype *a0_ptr = (ftype*)&a[stridea*0];
ftype *a1_ptr = (ftype*)&a[stridea*1];
ftype *a2_ptr = (ftype*)&a[stridea*2];
ftype *a3_ptr = (ftype*)&a[stridea*3];
for(int i=0; i<n; i++) {
floatn breg = floatn().load(&b[i*strideb + 0]);
floatn areg0 = *a0_ptr++;
floatn areg1 = *a1_ptr++;
floatn areg2 = *a2_ptr++;
floatn areg3 = *a3_ptr++;
tmp0 += areg0 * breg;
tmp1 += areg1 * breg;
tmp2 += areg2 * breg;
tmp3 += areg3 * breg;
}
tmp0.store(&c[stridec*0]);
tmp1.store(&c[stridec*1]);
tmp2.store(&c[stridec*2]);
tmp3.store(&c[stridec*3]);
}
答案 0 :(得分:0)
通常,处理吞吐量的限制因素是内存带宽,尤其是在您的工作集不适合CPU缓存的情况下({1}的1000 x 1000矩阵将占用~4 MB ,而你的CPU可能有2 MB的L3缓存)。在这种情况下,算法的结构可以对其执行方式产生很大的影响,但是你通常会在某些时候碰壁,因为你正在等待来自某些人的价值。内存层次结构中的更高级别。
此外,您的理论数字假设您有足够的指令而没有数据依赖性,以保持每个周期的所有执行单元的任务。这在实践中很难做到。我不确定一般矩阵乘法的最佳吞吐量是多少,但请查看this previous question以获取有关如何最大化指令吞吐量的信息。