基于语音识别的原型

时间:2010-10-05 15:46:41

标签: speech-recognition

我想创建一个基于自动语音识别的原型来处理报告。

现在的要求不确定,但起初我会得到一些虚拟数据集。 首先,我将专注于声学信号的输入和进一步处理。

我真的不知道如何开始,哪种开发环境,编程语言......

我更愿意与视觉工作室合作,因为我已经获得了许可证,但我很想提出建议。

你有一些教程,想法,经验吗?

1 个答案:

答案 0 :(得分:1)

(我正在重复使用我最近寄给朋友的电子邮件。我希望它有用)

Microsoft有两种语音引擎:桌面和服务器。桌面语音引擎附带了各种产品,包括:MS Office 2003,Windows Vista和Windows 7.服务器语音引擎随附Office Communications Server(OCS)和统一通信管理API(UCMA)。

桌面语音引擎通常附带听写语法。它针对桌面使用进行了优化,可以从多个进程共享。这将允许您使用桌面识别器的单个实例并向Excel和Word发出语音命令。桌面识别器可以通过COM SAPI api或.NET System.Speech命名空间进行编程。

服务器语音引擎没有附带任何语法。它针对服务器使用进行了优化。我相信它也针对电话使用进行了优化。它专为高容量场景而设计。服务器语音引擎可以通过COM SAPI api或.NET Microsoft.Speech命名空间进行编程。

服务器语音引擎打包成一个名为“Microsoft服务器语音平台”的新的免费可再发行组件包。我假设下一版本的OCS(名为Lync的产品 - http://www.microsoft.com/en-us/lync/default.aspx)也将包含相同的Microsoft服务器语音平台。

Microsoft Server Speech Platform可作为免费的可再发行组件下载。它有三个部分:SDK,运行时和语言。有26种语言可供选择。有关背景信息,请参阅http://blogs.msdn.com/b/speak/archive/2010/03/30/microsoft-server-speech-platform-10-1-released-sr-and-tts-in-26-languages.aspx。自该博客文章发布以来,微软已悄然发布了更新的10.2版Microsoft服务器语音平台。它们也可从以下网址下载:

SDK:http://www.microsoft.com/downloads/en/details.aspx?FamilyID=1b1604d3-4f66-4241-9a21-90a294a5c9a4&displaylang=en

运行时:http://www.microsoft.com/downloads/en/details.aspx?FamilyID=bb0f72cb-b86b-46d1-bf06-665895a313c7&displaylang=en

语言:http://www.microsoft.com/downloads/en/details.aspx?FamilyID=47ffd4e5-e682-4228-8058-dd895252a3c3&displaylang=en