Question

我有一个想法，建立程序，而不是用阿拉伯语的用户语音交互，因为有一年，我开始使用sphinx-4，但我需要制作阿拉伯语声学模型，语法，字典。。但是我找不到我想让你在详细描述中告诉我如何制作这些东西的方法？所需的iIDE或程序请帮帮我....

Answer 1

好吧，让我从一开始就开始吧，因为我认为你不了解项目的规模，而且你正在混淆东西（ASR和TTS）。首先，我想解释一下你所谈论的不同的事物：

声学模型：每个语音识别系统都需要声学模型。语言，特别是单词，由音素组成。音素描述声音的内容。举个例子，字母 a 并不总是以相同的方式发音，正如您从下面的两个单词中看到的那样：

到b a rk＆lt; =＆gt; to t a ke

现在您的ASR系统需要检测这些音素。为此，它对音频信号的许多短帧进行频谱分析并计算特征，如MFCC s。如何处理这些功能？它将它们放入分类器（我可以在这里写一个关于分类器的新章节，但这将是太多的信息）。您的分类器必须学习如何实际执行分类。它用简单的词语做的是它将一组特征映射到音素。

词典：在词典中，您可以定义ASR系统可识别的每个词。它告诉ASR一个单词的音素构成。一个简短的例子是：

hello H EH L OW
world W ER L D

使用这个小字典，您的系统将能够识别单词 hello 和 world 。

语言模型（或语法）：语言模型包含有关给定语言的单词汇编的信息。这是什么意思？想想智能手机的虚拟键盘。当您输入单词'Will you marry'时，您的键盘可能会猜到下一个单词是'me'。这不是魔术。该模型是从大量文本文件中学习的。你的LM也是如此。它将有意义的单词组成（每个人都称之为句子）的知识添加到ASR系统中，以进一步改进检测。

现在回到你的问题：你需要转录的音频数据，原因如下：

如果没有声学模型，你想训练你的声学模型。
你想创建一个足够大的词典。
您想从文本中生成语言模型。

长话短说：如果您认为自己可以解决所有这些任务，那就错了。只有可靠的转录已经是一项大量的工作。你应该清楚地思考你的想法。

语音识别/如何创建TTS？

1 个答案: