应用错误收集

如何开始使用语音转文本？

时间：2008-08-18 16:05:43

标签： language-agnostic speech-recognition

我对语音到文本算法非常感兴趣，但我不确定从哪里开始研究它们。一堆搜索导致我this，但是从1996年开始，我很确定从那以后有了改进。

对此类内容有任何经验的人是否有任何关于阅读/源代码的建议？或者只是关于我应该学习什么的一般性建议，如果我想进入编写语音识别程序的世界（如果你对该领域没有太多的了解，有时很难知道要搜索什么）。 / p>

编辑：我想跨平台做一些事情，但目前我的目标是linux。

编辑2：感谢csmba提供经过深思熟虑的回复。此时，我主要感兴趣的是能够创建允许自动化或通过语音执行不同命令的应用程序。因此，有限数量的可识别命令能够串联在一起。一个例子是一个音乐播放器，它接受诸如“播放由Squarepusher播放专辑Hello Everything”之类的命令，或者允许用户创建语音快捷方式以启动特定应用的应用程序启动器。

我意识到这是一个非常巨大的问题，并且我现在无法达到所需的知识水平来解决实施整个识别引擎的问题，尽管这样做所涉及的技术让我着迷，这是我的想法喜欢努力工作。很有可能，我可能最终会在这个主题上拿起一两本书，并在我的空闲时间学习/玩“简单”的实现。

6 个答案:

答案 0 :(得分：8)

这是一个巨大的问题，我不知道如何开始...所以，让我试着给你正确的“条款”，这样你就可以完善你的任务：

首先，要了解语音识别是一个多样化和复杂的主题，它有许多不同的应用。人们倾向于将这个领域映射到他们头脑中的第一件事（通常，这将是计算机理解你在IVR系统中所说的内容）。首先，让我们将概念区分为主要类别：

人机对话：应用程序，用于理解人类在说什么，但是人类知道他正在与机器交谈并且语法非常有限。例子是

计算机自动化
专业：飞行员自动控制某些控件（噪音很大）
IVR（交互式语音应答）系统（如Google-411）或当您致电银行时，另一方面的计算机上写着“说'服务'以获得客户服务”

人与人（自发言论）：这是一个更大，更复杂的问题。在这里，我们还可以将其分解为不同的应用程序：

呼叫中心：座席 - 客户，电话质量，压缩
情报：2人或更多人之间的电台/电话/现场对话

现在，言语到文本不是你应该说的，你关心的。你关心的是解决问题。不同的技术用于解决不同的问题。查看其中一些概述here。总而言之，其他方法是语音转录，LVCSR和直接基础。

另外，您是否有兴趣成为技术背后的PHD？你需要一个涉及信号处理的Masters等效物，并且可能是一个最先进的PHd。在这种情况下，您将为开发实际语音引擎的公司工作。像Nuance和IBM这样的公司是最重要的公司，但菲利普斯和其他创业公司也存在。

另一方面，如果你想成为一个实现应用程序的人，你将不会在引擎上工作，而是在构建使用引擎的应用程序。我认为这是游戏行业的一个很好的类比：您是在开发图形引擎（如Cry引擎），还是在几百个游戏之一上工作，都使用相同的图形引擎？

不要误解我的意思，在IBM / Nuance of the world之外的搜索质量还有很多工作要做。引擎通常是非常开放的，并且需要进行大量的算法调整才能显着影响性能。每个业务应用程序都有不同的约束和成本/收益功能，因此您可以多年进行实验，构建更好的基于语音识别的应用程序。

还有一件事：一般来说，你也希望在你想要的堆栈中有较低的统计背景。

目前，我主要感兴趣的是能够创建允许自动化的应用程序

好，我们在这里融合......然后你对“言语到文本”没兴趣。流行语将带您进入完全转录的世界，这是您不需要去的地方。您应该专注于一些人机对话技术，如语音XML和IVR系统中使用的技术（Nuance是那里最大的播放器）

答案 1 :(得分：3)

如果您是该领域的新手，我肯定会建议您选择a book或两个。我没有这方面的经验，所以我无法提出建议。如果你还在大学（或者仍然有密切关系），你应该知道你的教授是否可以提出建议。

您链接的调查可能也是一个很好的资源。我确信自1996年以来已有进步，但基本面不太可能从根本上改变。如果调查写得很好，那么值得您花时间阅读。

答案 2 :(得分：2)

对于OS X，请查看：OS X Speech Technologies

对于Windows，请查看以下内容：Microsoft Speech API

答案 3 :(得分：2)

我曾与IBMs ViaVoice product合作过。它有一个很好的ASR（自动语音识别）引擎，以及一个很好的文本到语音引擎。

网站不是很好，但这是嵌入式版本http://www-01.ibm.com/software/voice/support/

的链接

它与平台无关，并且一切都通过MVC架构使用vxml xml的变体用于语音目的。

答案 4 :(得分：0)

您定位的是什么平台？如果是for windows，可以使用Microsoft Speech APIs。

答案 5 :(得分：0)

还有适用于Android的Speech Recognition Service。