我之前正在思考这个问题。现代算法(特别是那些将语音转换为文本的算法)用来确定说哪个同音词(例如,或者两个?)
他们是否使用了背景线索?句子的结构?也许每个单词通常发音的方式略有不同(例如,我通常在两个中比在到中保持o声音更长)。前两者的组合似乎最合理。
答案 0 :(得分:6)
他们是否使用了背景线索?
是的,ASR系统使用跨字上下文。例如,如果前一个单词“正在”,则下一个单词可能是“to”而不是“two”。 ASR系统考虑概率并选择最佳的可能解码变体。
句子结构?
是的,ASR系统也使用更高级的语言模型来预测上下文中的可能单词。
也许每个单词通常发音的方式略有不同(例如,我通常将o声音保持为两声而不是声音)。
那也是。实际上“太”和“对”的发音完全不同。 “to”经常被简化为shwa。
如果您对语音识别算法感兴趣,可能有兴趣阅读ASR书籍或查看在线课程。详见
https://sourceforge.net/p/cmusphinx/discussion/speech-recognition/thread/3ea89abf/