Question

我想构建新的声学模型，新词典，新语言模型为“function get_tree($id){ $query = $this->db->query("SELECT ascending_path FROM category WHERE id ='$id'"); $result = $query->result_array(); return $result; }”Sinhala语言字符是基于Unicode的。例如A =අ，I =ඉ，U =උ，KA =ක，BA =බ。我确实通过了CMUSphinx Tutorial For Developers。但它没有帮助我。它适用于英语。

语言模型应该是ARPA模型。如何将Sinhala Unicode与英语音素映射，以及如何使用不同的声音训练语言模型。有没有可用于生成基于Unicode的语言模型的工具？

Answer 1

总的来说，它并不复杂。首先，您需要在部分上拆分任务：构建语音字典，构建语言模型，构建声学模型。从语音词典开始。

您需要编写一个Python脚本来将unicode输入映射到音译：

රට  r a tt a
එකඟයි   e k a ng a yi
අවසර දිම    a v a s a r a d i m a

基本上每个人都写一个相应的音译。这就是您需要做的所有事情，稍后您可以将单词列表提供给脚本并获取cmusphinx格式的字典。本部分将在教程

中介绍

http://cmusphinx.sourceforge.net/wiki/tutorialdict

获得音译工具后，您可以继续使用语言模型。您需要大量文本来构建语言模型。您可以从维基百科或当地报纸下载文本。然后，您可以使用任何语言模型工具包来创建ARPA模型。所有这些都支持unicode - SRILM，MITLM，IRSTLM，你可以使用它们中的任何一个。本部分将在教程

中介绍

http://cmusphinx.sourceforge.net/wiki/tutoriallm

第三步是创建一个声学模型。您需要录制音频或分段现有录音并开始训练。本部分也在教程

中介绍

http://cmusphinx.sourceforge.net/wiki/tutorialam

构建新的声学模型，词典，语言模型，用于不常见的语言语音识别

1 个答案: