标签: machine-learning text-to-speech speech-synthesis
最近,我开始探索机器学习,以自己的声音为基础设计语音合成器,并以Google的tacotron作为参考。结果充其量是平均水平,需要一点时间进行合成。
现在,我想知道像Adobe Reader这样的应用程序如何能够以如此高的质量实时地做到这一点。 他们的应用程序中是否预装有任何语音模型? 如果是,那么他们如何创建尺寸也很小的语音模型?