vector - 语音处理中的矢量量化解释

我无法从this research paper确切地确定如何重现标准矢量量化算法，以根据训练数据集确定未识别语音输入的语言。以下是一些基本信息：

抽象信息 使用声学特征的语言识别（例如日语，英语，德语等）是当前语音的重要但困难的问题技术。 ...本文使用的语音数据库包含20种语言：16 句子由4名男性和4名女性发出两次。每个的持续时间句子大约是8秒。第一种算法基于标准矢量量化（VQ）技术。每种语言都有特色通过自己的VQ码本 $alt text$ 。

识别算法 第一种算法基于标准矢量量化（VQ）技术。每种语言k都以其自己的VQ码本 $alt text$ 为特征。在识别阶段，输入语音由 $alt text$ 量化，并且计算累积的量化失真d_k。识别最小失真的语言。计算VQ失真，应用了几种LPC光谱失真度量......在这种情况下，WLR - 加权最小比率 - 距离：http://tinyurl.com/yc52gcl。

标准VQ算法： 使用训练句子生成每种语言的码本alt text http://tinyurl.com/y8csx6e。句子中 $alt text$ 的输入向量的累积距离定义为：alt text http://tinyurl.com/ybynjc2

距离d可以是与声学特征相对应的任何距离，并且必须与用于生成码本的距离相同。每种语言都以其VQ码本 $alt text$ 为特征。

我的问题是，我该怎么做？我有一套50个英文句子。在MATLAB中，我可以轻松计算任何给定信号的WLR。但是，我如何制定一个码本，因为我必须使用WLR为英语的“码本生成”。我也很好奇如何将大小为16的VQ码本（被发现是最佳大小）与给定的输入信号进行比较。如果有人能帮我提取这篇论文，我会非常感激。

谢谢！

语音处理中的矢量量化解释

1 个答案: