理想情况下,我正在寻找一种获取概率向量的方法,该向量表示音频文件的特定片段是特定电话。像这样:
输入:
输出:
答案 0 :(得分:1)
您可以在强制对齐模式下获得运行HVite
的得分。恐怕您必须为每个音素运行此程序:
HVite -A -D -T 1 -l '*' -o NTW -C HTK.cfg -a \
-H macros \
-H hmmdefs \
-i acoustic_score_AA.mlf \
-y lab \
-I AA.mlf \
-S index.scp \
words phones
输出文件acoustic_score_AA.mlf
将包含结果。我
words
词汇文件的内容应类似于:
AA AA
AE AE
....
ZH ZH
据我所记得,phones
必须包含音素列表(HMM型号)。
这里的技巧是输入.mlf文件的内容。例如,AA.mlf
应该像这样:
#!MLF!#
"*/S0001.lab"
AA
.
这将迫使HVite对整个话语应用AA
模型。音频文件的块必须事先执行。