我计算给定声音文件的fft并得到一个形状的数组,例如: (100,257)有100行和257个频率箱。我想将它用作神经网络的输入向量,但在我想用librosa lib进行标准化之前
https://librosa.github.io/librosa/generated/librosa.util.normalize.html#librosa.util.normalize
所以我应该在轴= 0或轴= 1时进行标准化吗? axis = 0规范化在行上聚合的列,并且轴= 1规范化每一行,还是应该对每个独立于行和列的值进行规范化?
答案 0 :(得分:0)
将fft标准化的方式取决于您的应用程序和最终性能。没有一般的标准化方案。
在我的一个应用程序中,我没有规范化并将原始fft输入神经网络。标准化的一种常用方法是采用对数。此操作可以减小动态范围。