i向量和d向量之间的差异

时间:2016-05-29 10:19:08

标签: neural-network artificial-intelligence speech-recognition deep-learning

有人可以解释i-vector和d-vector之间的区别吗?我所知道的是它们广泛用于说话人/语音识别系统,它们是表示说话人信息的模板,但我不知道主要的差异。

3 个答案:

答案 0 :(得分:10)

I-vector是一种表示帧级特征的特殊特征的特征。分配模式。 I向量提取本质上是GMM超向量的维数减少(尽管在计算i向量时不提取GMM超向量)。它以类似的方式用本征语音自适应方案或JFA技术提取,但是每个句子(或输入语音样本)被提取。

另一方面,使用DNN提取d向量。为了提取d向量,训练采用堆叠滤波器组特征(类似于ASR中使用的DNN声学模型)并在输出上生成单热扬声器标签(或扬声器概率)的DNN模型。 D-vector是来自该DNN的最后隐藏层的平均激活。因此,与i-vector框架不同,它对特征的分布没有任何假设(i-向量框架假设i向量或潜在变量具有高斯分布)。

总之,这些是从完全不同的方法或假设中提取的两个不同特征。我建议你阅读这些论文:

<磷>氮。 Dehak,P。Kenny,R。Dehak,P。Dumouchel和P. Ouellet,&#34;说话人验证的前端因子分析,&#34; IEEE音频,语音和语言处理交易,第一卷。 19,没有。 4,pp.788-798,2011。

电子。 Variani,X。Lei,E。McDermott,I。L. Moreno和J. G-Dominguez,&#34;深度神经网络,用于小尺寸文本相关的说话人验证,&#34;在 Proc。 ICASSP ,2014年,第4080-4084页。

答案 1 :(得分:3)

我不知道如何用简单的语言正确表征d-vector,但我可以帮助一点。

身份矢量,或 i-vector ,是特定语音切片的光谱特征,通常是音素的一小部分,很少(据我所见)与整个音素。基本上,它是一个离散谱图,表示为与时间切片的高斯混合同构的形式。

修改

感谢那些提供意见和优秀答案的人。我更新了此项仅用于替换原始尝试中的错误信息。

从Deep NN中提取 d-vector ,这是DNN最终隐藏层中特征向量的平均值。这成为说话者的模型,用于与其他语音样本进行比较以进行识别。

答案 2 :(得分:0)

在本文中,它们也指的是x-vector https://arxiv.org/pdf/1904.03486.pdf

这里介绍了哪些内容: https://www.danielpovey.com/files/2018_icassp_xvectors.pdf