应用错误收集

似乎微软提供了不少语音识别产品，我想知道它们之间的差异。

有Microsoft Speech API或SAPI。但不知何故，Microsoft Cognitive Service Speech API具有相同的名称。
现在，Azure上的Microsoft Cognitive Service提供语音服务API 和 Bing Speech API 。我假设语音到文本，两个API是相同的。
然后有System.Speech.Recognition（或桌面SAPI），Microsoft.Speech.Recognition（或服务器SAPI）和Windows.Media.Speech.Recognition。 Here和here对三者之间的差异有一些解释。但我的猜测是它们是基于HMM的旧语音识别模型，又名神经网络模型，并且所有这三种都可以在没有互联网连接的情况下离线使用，对吗？
对于Azure语音服务和bing语音API，它们是更高级的语音模型吗？但我认为没有办法在我的本地计算机上脱机使用它们，因为它们都需要订阅验证。（即使Bing API似乎有一个C# desktop library ..）

基本上我想要一个离线模型，它可以进行语音到文本的转录，用于我的会话数据（每个录音5-10分钟），可以识别多个扬声器并输出时间戳（或时间编码输出）。所有的选择我现在有点困惑。如果有人能向我解释，我将不胜感激，非常感谢！

一个困难的问题-以及为什么如此困难的部分原因：我们（微软）似乎提出了一个关于“语音”和“语音api”的不连贯的故事。尽管我在Microsoft工作，但以下是我对此的看法。我试图对我的团队正在计划的内容（认知服务演讲-客户端SDK）提供一些见识，但是我无法预测不久将来的所有方面。

Microsoft早就认识到语音是一种重要的媒介，因此Microsoft具有广泛且长期的历史，可以在其产品中启用语音功能。确实有不错的语音解决方案（具有本地识别功能），您列出了其中的一些。

我们正在努力将其统一起来，并向您展示一个在Microsoft找到最先进的语音解决方案的地方。这是“ Microsoft语音服务”（https://docs.microsoft.com/de-de/azure/cognitive-services/speech-service/）-当前处于预览状态。

在服务方面，它将把我们的主要语音技术结合在一起，例如语音到文本，文本到语音，意图，翻译（以及将来的服务）。语音和语言模型不断改进和更新。我们正在为此服务开发客户端SDK。随着时间的推移（今年晚些时候），该SDK将在所有主要操作系统（Windows，Linux，Android，iOS）上都可用，并支持主要编程语言。我们将继续增强/改进SDK的平台和语言支持。

在线服务和客户端SDK的结合将在今年晚些时候退出预览状态。

我们了解拥有本地识别功能的愿望。它不会在我们的第一个SDK版本中“开箱即用”（也不是当前预览的一部分）。 SDK的目标之一是平台和语言之间的奇偶校验（功能和API）。这需要很多工作。离线目前还不属于这个范围，在功能和时间轴上我都无法做出任何预测...

因此，从我的角度来看，新的语音服务和SDK是前进的方向。目标是在所有平台上提供统一的API，以便轻松访问所有Microsoft Speech Services。它需要订阅密钥，需要您“已连接”。我们正努力在今年晚些时候使（服务器和客户端）退出预览状态。

希望这对您有帮助...

狼帮

Microsoft Speech产品/平台之间的差异

1 个答案: