我只是在帧级别从模型中提取了一个对齐方式。
fash-b-an251 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 134 134 134 134 134 134 134 134 134 44 44 44 44 44 44 44 44 44 111 111 111 111 111 111 111 111 111 111 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
每个手机类都在data / lang / phones.txt文件中定义,根据这款手机可以分为X,X_B,X_I,X_E,X_S
其中_B音素开始_E音素结束,_S音素单音,_I音素中间,X只是一个音素。我的印象是每个音素都使用三个声明的hmm进行解码,因此认为在给定三帧=>的情况下可以在帧级解码电话。三组特征=>三个排序的发射概率组=>确定音素。
但事实并非如此 该功能必须包含来自静态,delta,delta-delta的信息。
如果是这种情况,是否有可能为每个音素提取三种状态的预期后验概率?
是否有可能给出一组功能(足以解码音素),在给定预制脚本的情况下将其解码为音素?