使用Kaldi的x向量方法进行说话人分割

时间:2018-05-23 08:31:47

标签: neural-network speech-to-text kaldi

我正在使用kaldi作为asr,现在我想使用Kaldi的x向量方法进行扬声器分割。他们在https://github.com/kaldi-asr/kaldi/tree/master/egs/sre16/v2提供了一些示例分段脚本。他们还在https://david-ryan-snyder.github.io/2017/10/04/model_sre16_v2.html

上提供了LDC语料库的基本预训练模型。

此预训练模型在取消存档时具有以下结构:

enter image description here

我无法访问LDC语料库,我想知道如何在我自己的数据上训练模型,然后如何使用该模型进行实际分割?

1 个答案:

答案 0 :(得分:0)

  

我想知道如何在我自己的数据上训练模型

有voxceleb演示使用公共数据,你可以自己运行。

您还可以使用正确的数据结构格式化数据(创建数据/ utt2spk和data / wav.scp文件)并使用您的数据运行。

https://rethinkdb.com/docs/2-1-5-performance-report/

  

然后如何使用该模型进行实际细分?

您从演示中的脚本开始,删除未使用的部分。这将为您提供基本的细分演示。您可以调用此简化演示,通过系统(2)从您的应用程序调用或以类似方式进行分段。

然后,如果需要,可以将脚本转换为相应的C ++ API调用,并从C ++或任何脚本语言调用相同的过程。