我正在尝试构建一个基于Mozilla DeepSpeech的自适应语音识别系统(这是DeepSpeech论文的TensorFlow实现)
这个想法是,
- 我们将以某种声音预先训练模型。然后,保存模型+创建一个检查点。
- 保存的模型用于将语音转录为文本。
- 如果用户注意到某些内容被错误转录,他可以就他刚录制的语音的正确文字提供反馈。
- 这是一个新的培训样本。模型将恢复到上一个检查点,然后对新样本进行训练。 (我们还会使用一些数据增强技术来增加样本数量)
- 现在最好的模型应该更好地采用用户语音/发音
- 如果转录不正确,请从第3步重复
醇>
这是使用检查点的正确方法吗?我的意思是,每当我训练新样本时,我都会恢复到最后一个检查点&用新样本替换完整的训练数据。
任何建议都将不胜感激!
提前致谢!