我想知道,google如何将语音转换为语音识别API中的文字。
他们是否存储了几乎所有声音并在特定频率级别匹配它们还是有一些不同的音频编码器和解码器算法,它们分析不同声音模式的声音,如“A”,“The”,“B”,“V” “,”D“,”你好“等,
这也很棒。如果有人可以共享,如何编码音频以及如何使用所有不同的声音过滤存储的音频,例如: -
有弹吉他,鼓和声音的音乐,我想分别用吉他声音分别输出3个声音,分别鼓声,分别说声音和进一步解码语音到文字。
大学的任何文献链接或研究论文都会很棒。
由于
答案 0 :(得分:2)
描述了Google语音识别器here。要理解它,您可能需要先阅读教科书Automatic Speech Recognition A Deep Learning Approach。
吉他和鼓的分离通常用Non-Negative Matrix Factorization实现。