如何在kaldi平台中添加新单词或词汇?

时间:2016-06-03 07:11:39

标签: speech-recognition models voice-recognition toolkit

我正在尝试使用现有的预训练模型创建ASR system作为样本。我陷入了一个如何在训练有素的模型中添加新单词的地方,以便下次正确地返回单词;某种机器学习的概念。任何想法都会有所帮助。

1 个答案:

答案 0 :(得分:-1)

您可能需要两件事:

  1. Lexicon:尝试在数据文件夹中找到类似lexicon.txt的内容,在其中添加您的文字和相应的电话序列,例如:

    speech s p iy ch
    the dh ax
    the dh iy
    
  2. 语言模型:在数据文件夹中找到类似XXX.lm的内容,以1-gram的形式添加单词,例如:

    \data\
    ngram 1=200
    ngram 2=4000
    ...
    
    \1-grams
    -7.3241 the
    ...
    
  3. 然后,根据这2个新文件再次生成解码器HCLG.fst

    注意:语言中的数字会使语音识别的结果不同,您需要选择正确的数字,或使用工具包srilm通过语料库的文本生成它。