语音识别算法如何识别同音字?

时间:2013-02-04 10:16:42

标签: speech-recognition voice-recognition

我之前正在思考这个问题。现代算法(特别是那些将语音转换为文本的算法)用来确定说哪个同音词(例如,或者两个?)

他们是否使用了背景线索?句子的结构?也许每个单词通常发音的方式略有不同(例如,我通常在两个中比在中保持o声音更长)。前两者的组合似乎最合理。

1 个答案:

答案 0 :(得分:6)

  

他们是否使用了背景线索?

是的,ASR系统使用跨字上下文。例如,如果前一个单词“正在”,则下一个单词可能是“to”而不是“two”。 ASR系统考虑概率并选择最佳的可能解码变体。

  

句子结构?

是的,ASR系统也使用更高级的语言模型来预测上下文中的可能单词。

  

也许每个单词通常发音的方式略有不同(例如,我通常将o声音保持为两声而不是声音)。

那也是。实际上“太”和“对”的发音完全不同。 “to”经常被简化为shwa。

如果您对语音识别算法感兴趣,可能有兴趣阅读ASR书籍或查看在线课程。详见

https://sourceforge.net/p/cmusphinx/discussion/speech-recognition/thread/3ea89abf/