应用错误收集

时间：2011-04-05 16:48:32

标签： iphone ios signal-processing voice-recognition

首先，我想说明我的问题不是关于语音识别的“经典”定义。

在以下意义上，我们要做的事情有所不同

例如，我录制了一个叫我母亲的语音命令，所以我点击她然后说“妈妈”。然后，当我使用该程序并说出“妈妈”时，它会自动给她打电话。

如何将口头命令与保存的语音样本进行比较？

编辑：我们不需要任何“文本到语音”能力，只需要比较声音信号。显然，我们正在寻找某种现成的产品或框架。

答案 0 :(得分：4)

音乐识别的一种方法是对所讨论的两个声音采用频谱的时间序列（时间窗口STFT FFT），在时间轴上映射频率峰值的位置，并交叉关联用于匹配的两个2D时频峰值映射。这比仅仅交叉关联2个声音样本更加稳健，因为峰值变化远小于谱峰值之间的所有光谱“残差”。如果两个话语的比率和音高没有太大变化，这种方法会更好。

在iOS 4.x中，您可以使用Accelerate框架进行FFT，也可以使用2D交叉关联。

答案 1 :(得分：0)

尝试使用第三方库，例如OpenEars用于iOS应用程序。您可以让用户录制语音样本并将其另存为翻译文本，或者让他们输入文本进行识别。

答案 2 :(得分：0)

我认为您必须执行某种cross correlation来确定这两种信号的相似程度。（假设它将是说话的同一用户）。我只是输入这个答案，看看它是否有帮助，但我会等待别人给出更好的答案。我的信号处理技能接近于零。

答案 3 :(得分：0)

我不确定您的问题是关于DSP还是如何在iPhone上进行。如果是后者，我会从Apple提供的Speak Here项目开始。这样你就已经有了将语音录制到文件完成的界面。它会为你省去很多麻烦。