我正在为像shazam这样的音乐识别系统做一个Android应用程序。我已经完成了自动录音部分。接下来我需要将此音频文件分解为重叠帧,如基于2-D色度研究论文的鲁棒音频指纹提取算法中所述。请有人帮我做。
研究论文就是这样解释的。
音频信号被分成重叠的帧 长度约为370毫秒,帧移位是帧的1/32 长度。其次,通过执行FFT获得功率谱, 然后是对数33的非重叠对数的能量 覆盖频率范围的间隔子带(例如,巴克标度) 计算从300Hz到2000Hz。最后,哈希字符串 (称为子指纹)是从子带计算的 每帧的能量如下:
ED(n,m)= E(n,m)-E(n,m + 1) - (E(n-1,m)-E(n-1,m + 1))--- > (1)
f(n)= [F(n,0),.....,F(n,31)] ---> (2)
在(1)中,表示th中的第s个子带能量 框架,是输出差异。是个 帧的32位子指纹是最重要的 它
这是用于划分重叠帧的算法????