Question

我有以下非常基本的使用各种接口进行2D FFT的示例。

import time
import numpy
import pyfftw
import multiprocessing

a = numpy.random.rand(2364,2756).astype('complex128')

start = time.time()
b1 = numpy.fft.fft2(a)
end1 = time.time() - start

start = time.time()
b2 = pyfftw.interfaces.scipy_fftpack.fft2(a, threads=multiprocessing.cpu_count())
end2 = time.time() - start

pyfftw.forget_wisdom()
start = time.time()
b3 = pyfftw.interfaces.numpy_fft.fft2(a, threads=multiprocessing.cpu_count())
end3 = time.time() - start

pyfftw.forget_wisdom()
start = time.time()
b4 = numpy.zeros_like(a)
fft = pyfftw.FFTW(a, b4, axes=(0,1), flags=('FFTW_ESTIMATE',),planning_timelimit=1.0)
fft()
end4 = time.time() - start

print('numpy.fft.fft2:                        %.3f secs.' % end1)
print('pyfftw.interfaces.scipy_fftpack.fft2:  %.3f secs.' % end2)
print('pyfftw.interfaces.numpy_fft.fft2:      %.3f secs.' % end3)
print('pyfftw.FFTW:                           %.3f secs.' % end4)

这会产生以下结果：

numpy.fft.fft2:                        1.878 secs.
pyfftw.interfaces.scipy_fftpack.fft2:  50.133 secs.
pyfftw.interfaces.numpy_fft.fft2:      52.136 secs.
pyfftw.FFTW:                           0.331 secs.

显然，pyfftw.FFTW界面是最快的，但不起作用（我不确定我做错了什么）。

pyfftw.interfaces.scipy_fftpack.fft2和pyfftw.interfaces.numpy_fft.fft2需要相当长的时间，但我已确定时间大部分时间处于规划阶段，这只是第一次发生。在我的情况下，将只执行一个FFT2和一个IFFT2（每个进程），因此计划正在扼杀我。如果其中任何一个在没有忘记智慧的情况下第二次运行，它们也会在大约0.33秒内运行（但这在我的情况下不会发生）。

所以，问题是： 1. pyfftw.FFTW导致数据出错的错误是什么？ - 要么 - 2.如何更改pyfftw.interfaces.scipy_fftpack.fft2或pyfftw.interfaces.numpy_fft.fft2？

的计划方案和时间限制

Answer 1

修改代码以正确使用pyfftw.FFTW类使其最有效，并使用“builder”类将执行时间减少了两倍。

import time
import numpy
import pyfftw
import multiprocessing
nthread = multiprocessing.cpu_count()
a = numpy.random.rand(2364,2756).astype('complex128')
""" 
Uncomment below to use 32 bit floats, 
increasing the speed by a factor of 4
and remove the difference between the "builders" and "FFTW" methods
"""
#a = numpy.random.rand(2364,2756).astype('complex64')

start = time.time()
b1 = numpy.fft.fft2(a)
end1 = time.time() - start

start = time.time()
b2 = pyfftw.interfaces.scipy_fftpack.fft2(a, threads=nthread)
end2 = time.time() - start

pyfftw.forget_wisdom()
start = time.time()
b3 = pyfftw.interfaces.numpy_fft.fft2(a, threads=nthread)
end3 = time.time() - start

""" By far the most efficient method """
pyfftw.forget_wisdom()
start = time.time()
b4 = numpy.zeros_like(a)
fft = pyfftw.FFTW( a, b4, axes=(0,1), direction='FFTW_FORWARD', flags=('FFTW_MEASURE', ), threads=nthread, planning_timelimit=None )
fft()
end4 = time.time() - start

""" 
For large arrays avoiding the copy is very important, 
doing this I get a speedup of 2x compared to not using it 
"""
pyfftw.forget_wisdom()
start = time.time()
b5 = numpy.zeros_like(a)
fft = pyfftw.builders.fft2(a, s=None, axes=(-2, -1), overwrite_input=False, planner_effort='FFTW_MEASURE', threads=nthread, auto_align_input=False, auto_contiguous=False, avoid_copy=True)
b5 = fft()
end5 = time.time() - start



print('numpy.fft.fft2:                        %.3f secs.' % end1)
print('pyfftw.interfaces.scipy_fftpack.fft2:  %.3f secs.' % end2)
print('pyfftw.interfaces.numpy_fft.fft2:      %.3f secs.' % end3)
print('pyfftw.FFTW:                           %.3f secs.' % end4)
print('pyfftw.builders:                       %.3f secs.' % end5)

使用64位浮点数在我的4核i5 CPU上的输出时间示例：

numpy.fft.fft2:                        1.537 secs.
pyfftw.interfaces.scipy_fftpack.fft2:  0.248 secs.
pyfftw.interfaces.numpy_fft.fft2:      0.248 secs.
pyfftw.FFTW:                           0.084 secs.
pyfftw.builders:                       0.143 secs.

使用32位浮点数在我的4核i5 CPU上的输出时间示例：

numpy.fft.fft2:                        1.414 secs.
pyfftw.interfaces.scipy_fftpack.fft2:  0.066 secs.
pyfftw.interfaces.numpy_fft.fft2:      0.066 secs.
pyfftw.FFTW:                           0.043 secs.
pyfftw.builders:                       0.043 secs.

Answer 2

我找到的解决方案是使用构建器界面：

fft = pyfftw.builders.fft2(a, overwrite_input=True, planner_effort='FFTW_ESTIMATE', threads=multiprocessing.cpu_count())
b = fft()

最快的FFT方法

2 个答案: