我正在努力研究一种系统,其中记录的句子的质量由计算机评定。该系统有三种运行模式:
我注意到使用上述3个来源从录音中得到的分数按以下顺序排列:Mic_score> Landline_score> mobile_score
上述顺序可能是由于编解码器和通道特性的影响。我的问题是:
Edit 1
:我不能自由地详述标准。我从麦克风,固定电话和移动电话获得的当前分数(对于相同的句子说(并且在三种媒体上类似地说)是80,66,41。这种差异可能是因为频道效应。如果内容说句子的方式是一样的,那么我正在寻找一种normalizes
得分的算法(它们不必相同,但它们应该接近)。
答案 0 :(得分:2)
很可能音质不同。 您是否尝试过听一些例子?
您还可以使用任何频谱分析仪详细查看该数据。我建议http://www.baudline.com/。你需要注意的事项:本底噪声与演讲之间的距离。
当说出字母t,f和s时,还要看高频噪声突发。在低质量的线条中,这些字母之间的差异消失了。
为什么要扭曲质量措施?对质量做出客观反应似乎更有意义。
答案 1 :(得分:2)
固定编解码器将删除4 kHz附近的所有频率。作为有损压缩过程的一部分,手机编解码器将丢弃更多信息。除非您有关于原始音频内容的另一侧信息通道,否则没有可靠的方法来恢复被丢弃的音频。
您最好将标准化归结为低通滤波器以匹配8 kHz电信编解码器,并通过某种蜂窝标准压缩算法运行结果(可能有一种针对您的特定移动蜂窝协议发布)。这应该将所有3个信号的质量降低到大致相同的水平。