使用Swift分析录制的音频文件,以便将语音转换为文本

时间:2016-07-06 10:11:30

标签: ios swift audio speech-to-text

我可以使用Swift for iOS录制音频并播放录制的音频文件。我要问的是,是否可以检查录制的音频文件中的背景噪音和音量/分贝所以我可以决定它对我的语音文本框架是否足够好。框架不是问题,我研究了所有可用的框架。

我很好奇我是否可以使用AVFoundation或Accelerate Framework或任何其他框架分析录制的音频文件,以检查音频文件是否足够好/清晰,以便使用语音到文本框架进行处理。

我没有很多音频知识,但我已经研究了一下,发现我可以在录制时获得峰值和平均分贝值,但背景噪音怎么样?

使用Swift分析录制的音频文件时,任何信息都会有所帮助。

1 个答案:

答案 0 :(得分:4)

SNR估计是相当发达的领域。您需要实现一个语音活动检测器,它将噪声与语音分开,然后分别计算噪声能量和信号能量,然后计算比率。这稍微超出了简单的数学,但您需要了解统计数据以实现Wada SNR这样的合理算法,该算法已实现here

你将无法在Swift中找到它的实现,这种软件通常用C或Matlab实现,你将不得不移植实现。

与语音识别相比,噪声估计是一个小问题,涉及更高级的算法。最好在Swift中考虑现有的语音识别包,如TLsphinxOpenEars