我目前正在研究用于文本到语音的循环神经网络,但我一度陷入困境。
我有一些输入文件,它们具有尺寸为490的文本(音素等)的特征。输出文件为mgc(60-d),bap(25-d)和lf0(1-d) )。 mgc和bap文件没问题,因为值之间没有很大差距。我可以用合理的时间和准确度训练他们。输入和输出是顺序的并且适当地对齐,例如,如果输入的形状(300,490),则mgc,bap和lf0的形状分别为(300,60),(300,25)和(300,1)。
我的问题在于lf0(基频的对数,我想)。值如,[0.23,1.2,0.54,3.4,-10e9,-10e9,-10e9,3.2,0.25]。我尝试使用MSE训练它,但错误太高而且根本没有减少。
我想听听有关此问题的任何建议。我对任何事情都持开放态度。
PS:我使用的是2 gru图层,每个图层有256或512个单位。