训练有素的语音模型是什么样的?那就是:
对某人声音的有用指纹进行编码的典型数据结构是什么?
如何将语音样本与评估模型进行比较,以确定它是否匹配?
我理解这些实现可能有些不同,所以任何来自学术文献或成功实施的流行示例都会很棒。
答案 0 :(得分:2)
对某人声音的有用指纹进行编码的典型数据结构是什么?
现代方法基于称为i向量的因子向量。 I-vector是100-400个元素的真实向量。它非常适合演讲者。
您可以从tutorial了解有关i-vectors的更多信息。
最初使用GMM模型提取i载体,使用最先进的DNN检测器。
如何将语音样本与评估模型进行比较,以确定它是否匹配?
将I向量与它们之间的余弦距离进行比较。
我知道实施中可能有一些变化,因此任何来自学术文献或成功实施的流行示例都会很棒。
有多种实施方式,您可以从Kaldi
获得最佳效果答案 1 :(得分:1)
创建人员模型:
最明确的是,在语音生物识别中,你会记录某人的声音。
然后将记录分成几小部分毫秒,然后提取这些部分的特征。最广泛的特征是梅尔频率倒谱系数(MFCC):
https://en.wikipedia.org/wiki/Mel-frequency_cepstrum
一旦你有了一个数据集(许多小部分语音的MFCC),你就可以使用像高斯混合模型(GMMs)这样的算法对声音进行建模,获得MFCC的概率密度分布:
https://en.wikipedia.org/wiki/Mixture_model#Gaussian_mixture_model
预测
想象一下,你现在有几个人的语音模型。
当您有新的语音记录时,您需要再次拆分新的语音记录并提取MFCC。
然后,您可以获得新样本属于每个模型的概率。
如果概率高于阈值,则表示匹配。