MKL矩形矩阵原位转置

时间:2019-05-13 09:35:20

标签: c++ c intel blas intel-mkl

我想要一个非常大的矩阵就地存储转置。我正在使用mkl_simatcopy。但是我在转置时观察到一些性能问题。我目前正在使用具有72个物理内核和redhat os的Intel®Xeon®CPU E7-8867 v4 @ 2.40GHz。

我的观察是,当我执行转置操作时,仅使用单个内核,而没有使用所有内核。我已经尝试了所有环境变量,例如MK_NUM_THREADS,MKL_DYNAMIC =“ FALSE”等。我的编译脚本如下:

gcc  -std=c99    -m64 -I $MKLROOT/include transpose.c  
${MKLROOT}/lib/intel64/libmkl_scalapack_ilp64.a -Wl,--start-group 
${MKLROOT}/lib/intel64/libmkl_cdft_core.a 
${MKLROOT}/lib/intel64/libmkl_intel_ilp64.a 
${MKLROOT}/lib/intel64/libmkl_tbb_thread.a 
${MKLROOT}/lib/intel64/libmkl_core.a 
${MKLROOT}/lib/intel64/libmkl_blacs_openmpi_ilp64.a -Wl,--end-group  -lstdc++ -lpthread -lm -ldl -o transpose.out

获得的时间如下

不。行列时间(秒)

1 16384 8192 16

2 16384 32768 68

3 32768 65536 233

数据类型为浮点型。请让我知道,如果有一种有效的原位转置方法,或者我们如何将其移植到多个内核。

int main(int argc, char *argv[])
{

   unsigned long noOfScan = atol(argv[1]);

   unsigned long noOfPix = atol(argv[2]);

   size_t nEle = noOfScan * noOfPix;

   float *data = (float *)calloc(nEle, sizeof(float));
   initalizeData(data, noOfScan, noOfPix);
   //printdata(data,noOfScan,noOfPix);
   //writeDataFile((char *)data,"BeforeTranspose.img",nEle*sizeof(float));
   printf("After transpose \n\n");
   long nt = mkl_get_max_threads();
   printf("No Of threads are = %d \n", nt);
   //mkl_set_num_threads_local(nt);
   //mkl_set_num_threads(nt);
   double time1 = cpuSecond();
   mkl_simatcopy('R', 'T', noOfScan, noOfPix, 1, data, noOfPix, noOfScan);
   printf("Time elapsed is %lf \n", cpuSecond() - time1);
   memset(data, 0, nEle * sizeof(float));
   free(data);
}

2 个答案:

答案 0 :(得分:1)

英特尔论坛上的answermkl_simatcopy不支持多线程。

答案 1 :(得分:1)

是的,该例程没有线程化。在这种情况下,如果您确实需要执行此例程,请将功能请求提交给英特尔在线服务中心-https://supporttickets.intel.com/