我开发了用于三维FFT(MKL接口)的C代码,可以在Intel MIC平台上本机运行。
数据元素是复杂到复杂变换的双精度复杂。我正在使用填充的前导维度,mkl_malloc()64字节对齐,并使用数组的radix-2维度我最终得到的性能大约为50 Gflop / s。
对于类似类型的转换,我无法在任何地方执行列表。任何人都可以告诉我,这对Xeon Phi来说是否合理(满意)?
答案 0 :(得分:2)
你的结果看起来不错。
英特尔提供的FFT tuning guide with 2-D float data on Xeon Phi显示最高性能为100Gflops。所以关于双倍数据的50Gflops应该是合理的。
除了问题中提到的因素外,其他内容包括领先维度,填充,线程数和亲和力也会对性能产生很大影响。
您可以参考这些英特尔文档了解更多信息。
xlon phi上的MKL文档列表
http://software.intel.com/en-us/articles/intel-mkl-on-the-intel-xeon-phi-coprocessors
在xeon phi上使用MKL的性能提示
在xeon phi上调整dft函数