我试图使用pocketsphinx创建一个sinhala语音识别系统。我使用SRILM工具来创建语言模型。我创建laguage模型的源文件是Here。我在Windows 8.1上使用cygwin来运行SRILM 1.7.1。但是一旦我运行命令
ngram-count -vocab sinhalalexicon.txt -text sinhalacorpus.Train -order 3 -write sinhala.count -unk
我正在
iconv: Invalid or incomplete multibyte or wide character
iconv: Invalid or incomplete multibyte or wide character
我在这里做错了什么? sinhalacorpus.Train文件是通过手动使用Notepad ++
创建的答案 0 :(得分:1)
我找到了解决问题的方法。一旦我将语料库和词典文件转换为 Unix格式并将编码更改为 UTF-8而没有BOM 就可以了。我使用Notepad ++进行更改。