应用错误收集

时间：2017-01-04 14:01:11

标签： machine-learning voice-recognition

训练有素的语音模型是什么样的？那就是：

我理解这些实现可能有些不同，所以任何来自学术文献或成功实施的流行示例都会很棒。

答案 0 :(得分：2)

对某人声音的有用指纹进行编码的典型数据结构是什么？

现代方法基于称为i向量的因子向量。 I-vector是100-400个元素的真实向量。它非常适合演讲者。

您可以从tutorial了解有关i-vectors的更多信息。

最初使用GMM模型提取i载体，使用最先进的DNN检测器。

如何将语音样本与评估模型进行比较，以确定它是否匹配？

将I向量与它们之间的余弦距离进行比较。

我知道实施中可能有一些变化，因此任何来自学术文献或成功实施的流行示例都会很棒。

有多种实施方式，您可以从Kaldi

获得最佳效果

答案 1 :(得分：1)

创建人员模型：

最明确的是，在语音生物识别中，你会记录某人的声音。

然后将记录分成几小部分毫秒，然后提取这些部分的特征。最广泛的特征是梅尔频率倒谱系数（MFCC）：

一旦你有了一个数据集（许多小部分语音的MFCC），你就可以使用像高斯混合模型（GMMs）这样的算法对声音进行建模，获得MFCC的概率密度分布：

预测

想象一下，你现在有几个人的语音模型。

当您有新的语音记录时，您需要再次拆分新的语音记录并提取MFCC。

然后，您可以获得新样本属于每个模型的概率。

如果概率高于阈值，则表示匹配。