所以,像许多其他人一样,我决定创建自己的语音识别引擎。事实证明,这根本不容易,相反,特别是英语语言难以实现,因为我说,一个词的方式之间存在着戏剧性的差异。写的,以及它的发音方式。来自格鲁吉亚,我决定为格鲁吉亚语写作语音识别。在格鲁吉亚语中,您可以按照写作方式发音。它就像一个转录。这个事实会明显减轻我的任务吗?或者甚至更难......困难:D?
答案 0 :(得分:9)
语音识别是一个复杂的领域,有许多特定的算法,工具和方法。要创建自己的引擎,您可以从CMUSphinx开源语音识别工具包开始,它将允许您:
CMUSphinx已经支持英语,德语,西班牙语,法语,荷兰语,俄语,普通话,冰岛语,意大利语和许多其他语言。添加一个新的非常简单。对于新人来说,通常需要一到两个月的集中工作来实施所需的流程。
要开始访问主页:
http://cmusphinx.sourceforge.net
并阅读教程
http://cmusphinx.sourceforge.net/wiki/tutorial
如果您有任何疑问,请在论坛或此处询问!
而且,当你说格鲁吉亚语时,你只是拼写声音是一个非常普遍的误解。对于世界上大多数语言来说,情况并非如此。要测试假设,请尝试在音频编辑器中录制一些音频,并检查哪些声音实际上是发音的。你会感到惊讶。上面的教程详细介绍了这个问题。
答案 1 :(得分:5)
来自佐治亚州的所有人听起来完全一样吗?我认为不是......语音识别中的许多重大问题与语言本身没有直接关系:
解决这些问题总是非常困难...除此之外你还有语言/代词要照顾......我不知道格鲁吉亚语,但你所描述的可能会使任务变得容易但它会仍然是一项艰巨的任务。
编辑 - 根据评论:
使用优秀的图书馆可能会缩短时间范围,甚至有助于提高质量......但并不是每个图书馆都有利于语音识别,尽管在其他一些与音频相关的问题上也很出色...
供参考,请参阅维基百科文章http://en.wikipedia.org/wiki/Speech_recognition - 它有一个很好的概述,包括一些链接和书籍参考,这是一个很好的起点......
至于如何设计此类API,请参阅示例http://java.sun.com/products/java-media/speech/forDevelopers/jsapi-guide/Recognition.html