在线和离线语音转换为文本转换之间的差异

时间:2016-03-29 06:33:22

标签: android speech-to-text

我正在使用Speech to text android application。 Google API可用于在线和离线语音转换文字。

我已经在Google API上完成了对语音的测试(在线以及脱机API)。已经观察到,与离线相比,在线语音到文本提供了更好的准确性。现在我的问题是

  1. 在线模式和离线模式有什么区别?
  2. 为什么离线模式会降低其准确性?有没有更准确的解决方案?
  3. 当我们收到任何电话时,数据连接会丢失。我可以同时实现两种解决方案吗?

1 个答案:

答案 0 :(得分:3)

  

在线模式和离线模式有什么区别?   为何离线模式会降低其准确性?有没有更准确的解决方案?

离线模式基于文件大小约为的模型。 20.3MB;由于不需要互联网连接,因此无需发送/接收数据。无论如何,这个模型的语音到文本比在线版本快6.5-7倍。这里重点提到的是,这个模型的单词错误率为13.5%,虽然不是很高,但考虑到有限的数据和算法,它可以访问。

在线系统显然可以访问更多的训练数据,并通过更多算法进行解析。我不认为离线版本可以被视为替代版本,但是当在线版本不可用时,可以将其视为替代版本。我读过用户声称“美国英语”和“美国英语”的文章。比英国英国人的工作做得更好,原因并不完全为我所知。

3G无法同时提供语音和数据。 WiFi / 4G没有这个问题。还有其他一些已知问题,例如来自服务提供商的限制,LTE /非LTE,CDMA等。如果您有这样的约束,一种方法可能是合并一些设计更改,以便您可以缓存数据然后访问在线引擎,电话结束后。

在我有限的经验中,对于离线功能,CMUSphinx似乎是一个更好的选择(因为Google每天限制50次通话(?))。其他一些可用的API列在here

启用离线语音转文本的研究论文链接到[link]。