我想问你如何有效地重新训练训练有素的seq2seq模型,以消除/减轻特定的观察到的错误输出。我将举一个关于语音合成的例子,但是不同领域的任何想法,例如机器翻译和语音识别,使用seq2seq模型都将受到赞赏。
我通过注意模型学习了seq2seq的基础知识,尤其是语音合成,例如Tacotron-2。 使用分布式训练有素的模型向我展示了我们的计算机如何自然地使用seq2seq(端到端)模型(您可以收听一些音频样本here)。但是,该模型仍然无法正确阅读某些词语,例如,它无法以[əbī]和[əbē]等多种方式阅读“服从[əbā]”。
原因很明显,因为在我们的数据集(LJ Speech)中,“服从”这个词显得太少,只有225,715个单词中的三个,而且模型没有运气。
那么,我们如何重新训练模型以克服错误?添加包含“服从”发音的额外音频片段听起来不切实际,但重复使用这三个音频片段有过度拟合的危险。而且,我想我们使用训练有素的模型,“简单地训练更多”并不是一种有效的解决方案。
现在,这是seq2seq模型的一个缺点,这个问题没有多少讨论。该模型成功地简化了传统模型的流水线,例如,对于语音合成,它通过单个神经网络取代了声学模型和文本分析前端等。但是我们完全失去了模型的可控性。不可能以特定的方式读取系统。
同样,如果您在任何字段中使用seq2seq模型并获得不良输出,您如何解决?是否存在针对此问题的数据科学解决方案,或者可能是尖端的神经网络机制以在seq2seq模型中获得更多可控性?
感谢。
答案 0 :(得分:0)
我在the paper(深度语音3)的3.2节中找到了自己的问题的答案。 因此,他们主要使用音素输入来训练基于音素的模型和基于字符的模型,主要是在无法将单词转换为音素表示时使用基于字符的模型。