语音处理中的矢量量化解释

时间:2010-02-16 07:34:38

标签: vector speech audio-processing quantization

我无法从this research paper确切地确定如何重现标准矢量量化算法,以根据训练数据集确定未识别语音输入的语言。以下是一些基本信息:

抽象信息 使用声学特征的语言识别(例如日语,英语,德语等)是当前语音的重要但困难的问题 技术。 ...本文使用的语音数据库包含20种语言:16 句子由4名男性和4名女性发出两次。每个的持续时间 句子大约是8秒。第一种算法基于标准 矢量量化(VQ)技术。每种语言都有特色 通过自己的VQ码本alt text

识别算法 第一种算法基于标准矢量量化(VQ)技术。每种语言k都以其自己的VQ码本alt text为特征。在识别阶段,输入语音由alt text量化,并且计算累积的量化失真d_k。识别最小失真的语言。计算VQ失真,应用了几种LPC光谱失真度量......在这种情况下,WLR - 加权最小比率 - 距离:http://tinyurl.com/yc52gcl

标准VQ算法: 使用训练句子生成每种语言的码本alt text http://tinyurl.com/y8csx6e。句子中alt text的输入向量的累积距离定义为:alt text http://tinyurl.com/ybynjc2

距离d可以是与声学特征相对应的任何距离,并且必须与用于生成码本的距离相同。每种语言都以其VQ码本alt text为特征。

我的问题是,我该怎么做?我有一套50个英文句子。在MATLAB中,我可以轻松计算任何给定信号的WLR。但是,我如何制定一个码本,因为我必须使用WLR为英语的“码本生成”。我也很好奇如何将大小为16的VQ码本(被发现是最佳大小)与给定的输入信号进行比较。如果有人能帮我提取这篇论文,我会非常感激。

谢谢!

1 个答案:

答案 0 :(得分:1)

第二个问题(将码本与给定信号进行比较)更容易:对于每个码本条目V_k_j,您必须使用输入信号计算距离d。距离“d”最小的“j”将与最佳拟合码本条目相对应。作为距离函数,您可以使用WLR

建立码本(trainig)有点复杂。你必须将句子除以长度为N(16)的向量,然后使用一些聚类算法(如k-means)来聚类这些向量。然后在每个群集中找到平均值。这意味着将成为码本条目。这是一个令人想到的事情。

可以找到另一种算法(我相信,它会更好)here。 此外,Wikipedia

中描述了两种简单的训练算法