在SRILM中为sinhala创建语言模型的问题

时间:2015-07-23 09:01:11

标签: voice-recognition pocketsphinx srilm

我试图使用pocketsphinx创建一个sinhala语音识别系统。我使用SRILM工具来创建语言模型。我创建laguage模型的源文件是Here。我在Windows 8.1上使用cygwin来运行SRILM 1.7.1。但是一旦我运行命令

ngram-count -vocab sinhalalexicon.txt -text sinhalacorpus.Train -order 3     -write sinhala.count -unk

我正在

iconv: Invalid or incomplete multibyte or wide character
iconv: Invalid or incomplete multibyte or wide character

我在这里做错了什么? sinhalacorpus.Train文件是通过手动使用Notepad ++

创建的

1 个答案:

答案 0 :(得分:1)

我找到了解决问题的方法。一旦我将语料库和词典文件转换为 Unix格式并将编码更改为 UTF-8而没有BOM 就可以了。我使用Notepad ++进行更改。