应用错误收集

i向量和d向量之间的差异

时间：2016-05-29 10:19:08

标签： neural-network artificial-intelligence speech-recognition deep-learning

有人可以解释i-vector和d-vector之间的区别吗？我所知道的是它们广泛用于说话人/语音识别系统，它们是表示说话人信息的模板，但我不知道主要的差异。

3 个答案:

答案 0 :(得分：10)

I-vector是一种表示帧级特征的特殊特征的特征。分配模式。 I向量提取本质上是GMM超向量的维数减少（尽管在计算i向量时不提取GMM超向量）。它以类似的方式用本征语音自适应方案或JFA技术提取，但是每个句子（或输入语音样本）被提取。

另一方面，使用DNN提取d向量。为了提取d向量，训练采用堆叠滤波器组特征（类似于ASR中使用的DNN声学模型）并在输出上生成单热扬声器标签（或扬声器概率）的DNN模型。 D-vector是来自该DNN的最后隐藏层的平均激活。因此，与i-vector框架不同，它对特征的分布没有任何假设（i-向量框架假设i向量或潜在变量具有高斯分布）。

总之，这些是从完全不同的方法或假设中提取的两个不同特征。我建议你阅读这些论文：

<磷>氮。 Dehak，P。Kenny，R。Dehak，P。Dumouchel和P. Ouellet，＆＃34;说话人验证的前端因子分析，＆＃34; IEEE音频，语音和语言处理交易，第一卷。 19，没有。 4，pp.788-798,2011。

电子。 Variani，X。Lei，E。McDermott，I。L. Moreno和J. G-Dominguez，＆＃34;深度神经网络，用于小尺寸文本相关的说话人验证，＆＃34;在 Proc。 ICASSP ，2014年，第4080-4084页。

答案 1 :(得分：3)

我不知道如何用简单的语言正确表征d-vector，但我可以帮助一点。

身份矢量，或 i-vector ，是特定语音切片的光谱特征，通常是音素的一小部分，很少（据我所见）与整个音素。基本上，它是一个离散谱图，表示为与时间切片的高斯混合同构的形式。

修改

感谢那些提供意见和优秀答案的人。我更新了此项仅用于替换原始尝试中的错误信息。

从Deep NN中提取 d-vector ，这是DNN最终隐藏层中特征向量的平均值。这成为说话者的模型，用于与其他语音样本进行比较以进行识别。

答案 2 :(得分：0)

在本文中，它们也指的是x-vector https://arxiv.org/pdf/1904.03486.pdf

这里介绍了哪些内容： https://www.danielpovey.com/files/2018_icassp_xvectors.pdf