如何在OS X上获得实时转录(没有音频文件)?

时间:2017-01-04 16:34:23

标签: audio speech-recognition audio-streaming closed-captions transcription

我正在为那些陷入多余会议的人们开发一个应用程序,他们需要知道有人问他们什么问题。

我的计划是:

  1. 将会议的音频(通常来自我的发言人)传输到演讲到文本节目
  2. 将其分成可以监视我名字和/或上升语调的问题
  3. 当有人问我一个问题时,让程序“ding”。然后我可以快速阅读文本并回答。
  4. 困难的部分是步骤(1)。我找到的所有语音到文本程序都接受音频文件作为输入,并且不能从任何通道流到扬声器/耳机。另一方面,我发现辅助程序接管键盘输入。理想情况下,用户可以通过在会议期间键入其他应用程序来执行高效工作,因此这种解决方案将无法正常工作。

    所以我正在寻找可以在OS X上使用的东西,它可以处理步骤(1)甚至更好为我执行上述大部分步骤。

    我已经对解决方案进行了研究,找不到任何步骤(1)。我将其他步骤包括在内,因为对于整个程序可能有一个更具创造性的解决方案(例如其他一些不用于听写的辅助技术),我不知道。

2 个答案:

答案 0 :(得分:1)

您可以使用许多API,例如streaming API from Google,但它并非完全免费。

如果您容忍较低的准确度,则可以使用CMUSphinx等开源软件。

问题还在于如何从voip软件获取音频流,你必须自己破解它。或者你必须重新录制在扬声器上播放的内容,这并不总是一个好主意。

答案 1 :(得分:1)

1)我使用LoopBack进行应用内音频路由,本质上是一个虚拟混音器,可将音频从1个应用程序传送到另一个应用程序。它显示为音频输入设备并且还允许监控 - 因此您可以收听并流式传输到另一个应用程序。

2和3)不是我的专业领域,但我可能会调查任何谷歌API(正如尼古拉所说)开始我的研究。