如何在Sidekit中获取通用背景模型以进行语言识别

时间:2019-03-27 16:35:50

标签: python speech-recognition voice-recognition gmm sidekit

我想在sidekit中获取ivector,所以我喜欢1000个音频,首先我用以下方法获得了mfcc:

frontend.features.mfcc(input_sig, lowfreq=100, maxfreq=8000, nlinfilt=0, nlogfilt=24, nwin=0.025, fs=16000, nceps=13, shift=0.01, get_spec=False, get_mspec=False, prefac=0.97)[source]

所以我有2个mfcc数组,现在我想获取ubm和ivector,但是获取ubm的命令需要功能服务器

ubm.EM_split(features_server=fs,
             feature_list=ubm_list,
             distrib_nb=1024,
             iterations=(1, 2, 2, 4, 4, 4, 4, 8, 8, 8, 8, 8, 8),
             num_thread=10,
             save_partial=False,
             ceil_cov=10,
             floor_cov=1e-2
             )

如何获取我的mfcc并制作功能服务器以获取我的ubm

文档很少,如果是基本文档,请抱歉 谢谢您的帮助

0 个答案:

没有答案