使用哪些数据结构对训练有素的语音模型进行编码?

时间:2017-01-04 14:01:11

标签: machine-learning voice-recognition

训练有素的语音模型是什么样的?那就是:

  • 对某人声音的有用指纹进行编码的典型数据结构是什么?

  • 如何将语音样本与评估模型进行比较,以确定它是否匹配?

我理解这些实现可能有些不同,所以任何来自学术文献或成功实施的流行示例都会很棒。

2 个答案:

答案 0 :(得分:2)

  

对某人声音的有用指纹进行编码的典型数据结构是什么?

现代方法基于称为i向量的因子向量。 I-vector是100-400个元素的真实向量。它非常适合演讲者。

您可以从tutorial了解有关i-vectors的更多信息。

最初使用GMM模型提取i载体,使用最先进的DNN检测器。

  

如何将语音样本与评估模型进行比较,以确定它是否匹配?

将I向量与它们之间的余弦距离进行比较。

  

我知道实施中可能有一些变化,因此任何来自学术文献或成功实施的流行示例都会很棒。

有多种实施方式,您可以从Kaldi

获得最佳效果

答案 1 :(得分:1)

创建人员模型:

最明确的是,在语音生物识别中,你会记录某人的声音。

然后将记录分成几小部分毫秒,然后提取这些部分的特征。最广泛的特征是梅尔频率倒谱系数(MFCC):

https://en.wikipedia.org/wiki/Mel-frequency_cepstrum

一旦你有了一个数据集(许多小部分语音的MFCC),你就可以使用像高斯混合模型(GMMs)这样的算法对声音进行建模,获得MFCC的概率密度分布:

https://en.wikipedia.org/wiki/Mixture_model#Gaussian_mixture_model

预测

想象一下,你现在有几个人的语音模型。

当您有新的语音记录时,您需要再次拆分新的语音记录并提取MFCC。

然后,您可以获得新样本属于每个模型的概率。

如果概率高于阈值,则表示匹配。