Microsoft Speech产品/平台之间的差异

时间:2018-06-12 17:15:09

标签: speech-recognition speech-to-text microsoft-cognitive microsoft-speech-api microsoft-speech-platform

似乎微软提供了不少语音识别产品,我想知道它们之间的差异。

  • Microsoft Speech API或SAPI。但不知何故,Microsoft Cognitive Service Speech API具有相同的名称。

  • 现在,Azure上的Microsoft Cognitive Service提供语音服务API Bing Speech API 。我假设语音到文本,两个API是相同的。

  • 然后有System.Speech.Recognition(或桌面SAPI),Microsoft.Speech.Recognition(或服务器SAPI)和Windows.Media.Speech.RecognitionHerehere对三者之间的差异有一些解释。但我的猜测是它们是基于HMM的旧语音识别模型,又名神经网络模型,并且所有这三种都可以在没有互联网连接的情况下离线使用,对吗?

  • 对于Azure语音服务和bing语音API,它们是更高级的语音模型吗?但我认为没有办法在我的本地计算机上脱机使用它们,因为它们都需要订阅验证。 (即使Bing API似乎有一个C# desktop library ..)

基本上我想要一个离线模型,它可以进行语音到文本的转录,用于我的会话数据(每个录音5-10分钟),可以识别多个扬声器并输出时间戳(或时间编码输出)。所有的选择我现在有点困惑。如果有人能向我解释,我将不胜感激,非常感谢!

1 个答案:

答案 0 :(得分:6)

一个困难的问题-以及为什么如此困难的部分原因:我们(微软)似乎提出了一个关于“语音”和“语音api”的不连贯的故事。尽管我在Microsoft工作,但以下是我对此的看法。我试图对我的团队正在计划的内容(认知服务演讲-客户端SDK)提供一些见识,但是我无法预测不久将来的所有方面。

Microsoft早就认识到语音是一种重要的媒介,因此Microsoft具有广泛且长期的历史,可以在其产品中启用语音功能。确实有不错的语音解决方案(具有本地识别功能),您列出了其中的一些。

我们正在努力将其统一起来,并向您展示一个在Microsoft找到最先进的语音解决方案的地方。这是“ Microsoft语音服务”(https://docs.microsoft.com/de-de/azure/cognitive-services/speech-service/)-当前处于预览状态。

在服务方面,它将把我们的主要语音技术结合在一起,例如语音到文本,文本到语音,意图,翻译(以及将来的服务)。语音和语言模型不断改进和更新。我们正在为此服务开发客户端SDK。随着时间的推移(今年晚些时候),该SDK将在所有主要操作系统(Windows,Linux,Android,iOS)上都可用,并支持主要编程语言。我们将继续增强/改进SDK的平台和语言支持。

在线服务和客户端SDK的结合将在今年晚些时候退出预览状态。

我们了解拥有本地识别功能的愿望。它不会在我们的第一个SDK版本中“开箱即用”(也不是当前预览的一部分)。 SDK的目标之一是平台和语言之间的奇偶校验(功能和API)。这需要很多工作。离线目前还不属于这个范围,在功能和时间轴上我都无法做出任何预测...

因此,从我的角度来看,新的语音服务和SDK是前进的方向。目标是在所有平台上提供统一的API,以便轻松访问所有Microsoft Speech Services。它需要订阅密钥,需要您“已连接”。我们正努力在今年晚些时候使(服务器和客户端)退出预览状态。

希望这对您有帮助...

狼帮