在我的项目中,我正在使用名为LIUM_SpkDiarization-4.7.jar的库,但我不太清楚它是如何工作的。请问,有人可以解释一下吗?
另外,我正在使用它与python。
图书馆的链接是:https://voiceid.googlecode.com/svn-history/r11/trunk/scripts/LIUM_SpkDiarization-4.7.jar
提前致谢。
答案 0 :(得分:2)
我不知道这个工具。它看起来很酷。你检查过他们的wiki吗?他们有一些关于系统如何运作的论文:http://lium3.univ-lemans.fr/diarization/doku.php
基本上,他们计算MFCC Mel频率倒谱系数(标准技术)。这是基本步骤。它会生成一个可供使用的功能空间。它类似于在滑动窗口上及时计算FFT。最终使用贝叶斯信息准则(BIC)方法对这些时间切片特征进行聚类。首先分割基于时间的特征空间,然后进行聚类,并为每个说话者找到一致的特征。 HMM,viterbi,EM,有时也可以使用GMM。
我不太清楚这个算法的详细解释,但这也应该有所帮助:http://lium3.univ-lemans.fr/diarization/doku.php/overview