我无法从this research paper确切地确定如何重现标准矢量量化算法,以根据训练数据集确定未识别语音输入的语言。以下是一些基本信息:
抽象信息
使用声学特征的语言识别(例如日语,英语,德语等)是当前语音的重要但困难的问题
技术。 ...本文使用的语音数据库包含20种语言:16
句子由4名男性和4名女性发出两次。每个的持续时间
句子大约是8秒。第一种算法基于标准
矢量量化(VQ)技术。每种语言都有特色
通过自己的VQ码本。
识别算法
第一种算法基于标准矢量量化(VQ)技术。每种语言k
都以其自己的VQ码本为特征。在识别阶段,输入语音由
量化,并且计算累积的量化失真d_k。识别最小失真的语言。计算VQ失真,应用了几种LPC光谱失真度量......在这种情况下,WLR - 加权最小比率 - 距离:http://tinyurl.com/yc52gcl。
标准VQ算法:
使用训练句子生成每种语言的码本alt text http://tinyurl.com/y8csx6e。句子中的输入向量的累积距离定义为:alt text http://tinyurl.com/ybynjc2
距离d
可以是与声学特征相对应的任何距离,并且必须与用于生成码本的距离相同。每种语言都以其VQ码本为特征。
我的问题是,我该怎么做?我有一套50个英文句子。在MATLAB中,我可以轻松计算任何给定信号的WLR。但是,我如何制定一个码本,因为我必须使用WLR为英语的“码本生成”。我也很好奇如何将大小为16的VQ码本(被发现是最佳大小)与给定的输入信号进行比较。如果有人能帮我提取这篇论文,我会非常感激。
谢谢!