应用错误收集

我正致力于开发一种用于现场录音的语音情感识别系统。我正在使用OpenSMILE库进行特征提取。我收集了一组包含不同类型语音类型的音频文件，并从中提取特征并训练基于SVM的分类器进行情感识别。然而，当在现场演讲中进行测试时，这完全失败了。原因是实况语音中的信号和特征分布（MFCC，LSP，Pitch，Intensity，F0）与文件中的信号完全不同。 OpenSMILE库使用portaudio来访问麦克风的音频信号。

我试过无线播放文件（f_original）并通过麦克风录制然后让OpenSMILE保存（f_distorted）。我发现f_original和f_distorted在播放时与人耳听起来并没有太大差别。然而，在audacity中可视化时的音频信号相差很大，从f_original和f_distorted中提取的特征差别很大。文件f_original是16000Hz，我在特征提取之前将其上采样到44100Hz。麦克风的录制频率为44100Hz。

虽然我确实期望通过麦克风录制时出现一些失真，但我看到的失真量极端。

还有其他人遇到过类似的问题吗？有关如何解决此问题的任何指示。

谢谢！

这将在很大程度上取决于录音的环境因素，包括房间，扬声器/麦克风组合的频率响应以及它们在录音室内的类型/位置。该软件可能能够帮助您清理它，但获得干净的录音将是影响您的软件分析能力的最重要因素。

假设您的录音电平设置正确，并且您的麦克风和扬声器具有相对平坦的频率响应，您仍将根据环境改变声音的频率曲线。

这种效果在播放时可能不会立即显现，但会有许多声音元素受到不利影响。这已经被作曲家用到了很好的效果。

请参阅Alvin Lucier的我正坐在http://www.ubu.com/sound/lucier.html的一个房间，这是一个很好的例子。

您在录音中听到的许多瞬态拖尾效果会大大影响语音分析，因此需要非常详细地考虑录音的设置。最好与声音工程师讨论录音设置的提示，因为这似乎是你似乎正在努力的部分。例如您没有提到您正在使用的房间的声学特性或音频设置。

您还可以对您打算使用的房间/麦克风/扬声器设置进行脉冲响应，然后使用脉冲对录制的语音进行去卷积，这理论上应该将录音减少到原始信号的完美表示。这很棘手但可以提供一些令人失望的结果。

文件之间的音频信号差异和麦克风录音

1 个答案: