Cmusphinx西班牙语模型语无效转录

时间:2016-07-16 11:14:12

标签: c wav speech-to-text cmusphinx pocketsphinx

我已在笔记本电脑(Linux Mint 17)中安装了pocketsphinx,旨在将WAV音频文件转录为文本。音频是西班牙语,因此我从其网站上下载了Voxforge 0.2西班牙语模型,并使用以下代码进行了复制粘贴:

#include <pocketsphinx.h>

int main(int argc, char *argv[])
{
   ps_decoder_t *ps;
   cmd_ln_t *config;
   FILE *fh;
   char const *hyp, *uttid;
   int16 buf[512];
   int rv;
   int32 score;

   if( argc == 2 ) 
   {
      printf("Transcribiendo fichero: %s\n", argv[1]);
   }
   else if( argc > 2 ) 
   {
      printf("Demasiados argumentos.\n");
   }
   else 
   {
      printf("Se esperaba un sólo argumento.\n");
   }
   config = cmd_ln_init(NULL, ps_args(), TRUE,
             "-hmm", "/home/<myuser>/software/voxforge-es/model_parameters/voxforge_es_sphinx.cd_ptm_3000",
             "-lm", "/home/<myuser>/software/voxforge-es/etc/voxforge_es_sphinx.transcription.test.lm",
             "-dict", "/home/<myuser>/software/voxforge-es/etc/voxforge_es_sphinx.dic",
             NULL);
   if (config == NULL) 
   {
      fprintf(stderr, "Failed to create config object, see log for details\n");
    return -1;
   }

   ps = ps_init(config);
   if (ps == NULL) 
   {
      fprintf(stderr, "Failed to create recognizer, see log for details\n");
      return -1;
   }

   fh = fopen(argv[1], "rb");
   if (fh == NULL) 
   {
      fprintf(stderr, "Unable to open input file.\n");
      return -1;
   }

   rv = ps_start_utt(ps);

   while (!feof(fh)) 
   {
      size_t nsamp;
      nsamp = fread(buf, 2, 512, fh);
      rv = ps_process_raw(ps, buf, nsamp, FALSE, FALSE);
   }

   rv = ps_end_utt(ps);
   hyp = ps_get_hyp(ps, &score);
   printf("Reconocido: %s\n", hyp);

   fclose(fh);
   ps_free(ps);
   cmd_ln_free_r(config);

   return 0;
}

问题是WAV mono 16Khz文件会产生奇怪的结果。 我想知道的是,如果我需要重建模型或调整特定参数......

例如,考虑以下文字:

“Hola soyingenieroinformático”

我将它转换为16KHz / 16位/单声道WAV文件。

运行我的代码,它给出了这个输出:

> ./nlptest voice.wav
"cola salir en y era de líneas"

正如您所看到的,它与原始版本完全不同。只有“hola”和“cola”这两个词的发音相似(但绝对不同)。

即使使用pocketsphinx_continuous,结果也非常糟糕(只有一个词不同):

> pocketsphinx_continuous -hmm /home/<myuser>/software/voxforge-es/model_parameters/voxforge_es_sphinx.cd_ptm_3000 -lm /home/<myuser>/software/voxforge-es/etc/voxforge_es_sphinx.transcription.test.lm -dict /home/<myuser>/software/voxforge-es/etc/voxforge_es_sphinx.dic -infile voice.wav
"cola seguir en y era de líneas"

感谢您的建议。

1 个答案:

答案 0 :(得分:3)

您使用的语言voxforge_es_sphinx.transcription.test.lm模型名称中包含“test”,仅供测试之用。您可以在我们的网站here上下载更多高级模型es-20k.lm.gz

总的来说,我们的西班牙语模型非常基础且不太准确,如果你需要一个严肃的转录,你需要付出很多努力来扩展它。