CPU体系结构的8位FFT?

时间:2013-04-17 17:12:58

标签: c++ c fft sse 8-bit

我正在寻找一种能够处理8位实数到复数变换(大小为65K)的FFT引擎。对此的需求是加速实时信号处理引擎。它目前受限于8位 - > FP32和FP32 - > 8位转换,以及实际的FFT是内存带宽限制(我们目前正在使用FFTW)。

我认为Spiral项目可能能够做到这一点http://spiral.net,但是他们网页上似乎唯一可用的代码是单变换或双变换。

任何人都知道可以执行此操作的任何C或C ++库吗?

2 个答案:

答案 0 :(得分:2)

有时候我遇到了同样的问题。我的数据帧的FFTW在14 ms(正向,一些计算和向后)中执行,而直接字节(或短)到浮点数组转换需要12-19 ms。所以我已经制作了SSE函数来将字节转换为浮点数(每个周期4个元素),并且具有显着的速度增益 - 现在转换在2.2-5毫秒内完成。

如果编译器可以使用自动向量化,请先尝试。

如果没有,请使用内在函数编写简单的转换函数。

我使用了内联汇编程序(MOVD,PUNPCKLBW,PUNPCKLWD,CVTDQ2PS,MOVAPS命令序列)。

procedure BytesToSingles(Src, Dst: Pointer; Count: Integer);
asm
  //EAX = Src pointer to byte array
  //EDX = Dst pointer to float array !!! 16 byte-aligned !!!
  //ECX = Count (multiple of four)
  SHR ECX, 2           // 4 elements per cycle
  JZ @@Exit
  PXOR XMM7, XMM7      // zeros
@@Cycle:
  MOVD XMM1, [EAX]     // load 4 bytes
  PUNPCKLBW XMM1, XMM7 // unpack to words
  PUNPCKLWD XMM1, XMM7 // words to int32
  CVTDQ2PS XMM0, XMM1  // convert integers to 4 floats
  MOVAPS [EDX], XMM0   // store 4 floats to destination array
  ADD EAX, 4           // move array pointers
  ADD EDX, 16
  LOOP @@Cycle
@@Exit:
end;

请注意,正如Paul R在评论中写道的那样,对8位数据的FFT实现会遇到数值错误问题。

答案 1 :(得分:2)

想要在固定点进行所有处理。您的数据将在该大小的FFT中变为糊状。从技术上讲,你可以使用32位固定点并保持所有动态,但你仍然需要转换数据它会比使用浮点数慢(你标记了SSE,所以我假设你在具有FPU的英特尔机器)。我的观点基于我的工作创建kissfft

重点关注加速类型转换。 我没有运行MBo的汇编代码,但它看起来是正确的方法。我认为展开可能会让它更快。

如果您不习惯汇编,请改用SSE2编译器instrinsics。它将同样快速(假设编程良好),它将使您的代码更具可读性和可维护性。 This answer会为您提供所需的大部分内容。