应用错误收集

时间：2013-02-04 10:16:42

标签： speech-recognition voice-recognition

我之前正在思考这个问题。现代算法（特别是那些将语音转换为文本的算法）用来确定说哪个同音词（例如，或者两个？）

他们是否使用了背景线索？句子的结构？也许每个单词通常发音的方式略有不同（例如，我通常在两个中比在到中保持o声音更长）。前两者的组合似乎最合理。

答案 0 :(得分：6)

他们是否使用了背景线索？

是的，ASR系统使用跨字上下文。例如，如果前一个单词“正在”，则下一个单词可能是“to”而不是“two”。 ASR系统考虑概率并选择最佳的可能解码变体。

句子结构？

是的，ASR系统也使用更高级的语言模型来预测上下文中的可能单词。

也许每个单词通常发音的方式略有不同（例如，我通常将o声音保持为两声而不是声音）。

那也是。实际上“太”和“对”的发音完全不同。 “to”经常被简化为shwa。

如果您对语音识别算法感兴趣，可能有兴趣阅读ASR书籍或查看在线课程。详见