java - LIUM演讲者Diaritization如何运作？

LIUM演讲者Diaritization如何运作？

时间：2014-01-10 10:25:38

标签： java python jar voice speaker

在我的项目中，我正在使用名为LIUM_SpkDiarization-4.7.jar的库，但我不太清楚它是如何工作的。请问，有人可以解释一下吗？

另外，我正在使用它与python。

图书馆的链接是：https://voiceid.googlecode.com/svn-history/r11/trunk/scripts/LIUM_SpkDiarization-4.7.jar

提前致谢。

1 个答案:

答案 0 :(得分：2)

我不知道这个工具。它看起来很酷。你检查过他们的wiki吗？他们有一些关于系统如何运作的论文：http://lium3.univ-lemans.fr/diarization/doku.php

基本上，他们计算MFCC Mel频率倒谱系数（标准技术）。这是基本步骤。它会生成一个可供使用的功能空间。它类似于在滑动窗口上及时计算FFT。最终使用贝叶斯信息准则（BIC）方法对这些时间切片特征进行聚类。首先分割基于时间的特征空间，然后进行聚类，并为每个说话者找到一致的特征。 HMM，viterbi，EM，有时也可以使用GMM。

我不太清楚这个算法的详细解释，但这也应该有所帮助：http://lium3.univ-lemans.fr/diarization/doku.php/overview