文件之间的音频信号差异和麦克风录音

时间:2013-03-28 21:18:14

标签: audio audio-recording audio-processing portaudio emotion

我正致力于开发一种用于现场录音的语音情感识别系统。我正在使用OpenSMILE库进行特征提取。我收集了一组包含不同类型语音类型的音频文件,并从中提取特征并训练基于SVM的分类器进行情感识别。然而,当在现场演讲中进行测试时,这完全失败了。原因是实况语音中的信号和特征分布(MFCC,LSP,Pitch,Intensity,F0)与文件中的信号完全不同。 OpenSMILE库使用portaudio来访问麦克风的音频信号。

我试过无线播放文件(f_original)并通过麦克风录制然后让OpenSMILE保存(f_distorted)。我发现f_original和f_distorted在播放时与人耳听起来并没有太大差别。然而,在audacity中可视化时的音频信号相差很大,从f_original和f_distorted中提取的特征差别很大。文件f_original是16000Hz,我在特征提取之前将其上采样到44100Hz。麦克风的录制频率为44100Hz。

虽然我确实期望通过麦克风录制时出现一些失真,但我看到的失真量极端。

还有其他人遇到过类似的问题吗?有关如何解决此问题的任何指示。

谢谢!

1 个答案:

答案 0 :(得分:1)

这将在很大程度上取决于录音的环境因素,包括房间,扬声器/麦克风组合的频率响应以及它们在录音室内的类型/位置。该软件可能能够帮助您清理它,但获得干净的录音将是影响您的软件分析能力的最重要因素。

假设您的录音电平设置正确,并且您的麦克风和扬声器具有相对平坦的频率响应,您仍将根据环境改变声音的频率曲线。

这种效果在播放时可能不会立即显现,但会有许多声音元素受到不利影响。这已经被作曲家用到了很好的效果。

请参阅Alvin Lucier的我正坐在http://www.ubu.com/sound/lucier.html的一个房间,这是一个很好的例子。

您在录音中听到的许多瞬态拖尾效果会大大影响语音分析,因此需要非常详细地考虑录音的设置。最好与声音工程师讨论录音设置的提示,因为这似乎是你似乎正在努力的部分。 例如您没有提到您正在使用的房间的声学特性或音频设置。

您还可以对您打算使用的房间/麦克风/扬声器设置进行脉冲响应,然后使用脉冲对录制的语音进行去卷积,这理论上应该将录音减少到原始信号的完美表示。这很棘手但可以提供一些令人失望的结果。