首先,我想说明我的问题不是关于语音识别的“经典”定义。
在以下意义上,我们要做的事情有所不同
例如,我录制了一个叫我母亲的语音命令,所以我点击她然后说“妈妈”。 然后,当我使用该程序并说出“妈妈”时,它会自动给她打电话。
如何将口头命令与保存的语音样本进行比较?
编辑: 我们不需要任何“文本到语音”能力,只需要比较声音信号。 显然,我们正在寻找某种现成的产品或框架。
答案 0 :(得分:4)
音乐识别的一种方法是对所讨论的两个声音采用频谱的时间序列(时间窗口STFT FFT),在时间轴上映射频率峰值的位置,并交叉关联用于匹配的两个2D时频峰值映射。这比仅仅交叉关联2个声音样本更加稳健,因为峰值变化远小于谱峰值之间的所有光谱“残差”。如果两个话语的比率和音高没有太大变化,这种方法会更好。
在iOS 4.x中,您可以使用Accelerate框架进行FFT,也可以使用2D交叉关联。
答案 1 :(得分:0)
尝试使用第三方库,例如OpenEars用于iOS应用程序。您可以让用户录制语音样本并将其另存为翻译文本,或者让他们输入文本进行识别。
答案 2 :(得分:0)
我认为您必须执行某种cross correlation来确定这两种信号的相似程度。 (假设它将是说话的同一用户)。我只是输入这个答案,看看它是否有帮助,但我会等待别人给出更好的答案。我的信号处理技能接近于零。
答案 3 :(得分:0)
我不确定您的问题是关于DSP还是如何在iPhone上进行。如果是后者,我会从Apple提供的Speak Here项目开始。这样你就已经有了将语音录制到文件完成的界面。它会为你省去很多麻烦。