我正在为那些陷入多余会议的人们开发一个应用程序,他们需要知道有人问他们什么问题。
我的计划是:
困难的部分是步骤(1)。我找到的所有语音到文本程序都接受音频文件作为输入,并且不能从任何通道流到扬声器/耳机。另一方面,我发现辅助程序接管键盘输入。理想情况下,用户可以通过在会议期间键入其他应用程序来执行高效工作,因此这种解决方案将无法正常工作。
所以我正在寻找可以在OS X上使用的东西,它可以处理步骤(1)或甚至更好为我执行上述大部分步骤。
我已经对解决方案进行了研究,找不到任何步骤(1)。我将其他步骤包括在内,因为对于整个程序可能有一个更具创造性的解决方案(例如其他一些不用于听写的辅助技术),我不知道。
答案 0 :(得分:1)
您可以使用许多API,例如streaming API from Google,但它并非完全免费。
如果您容忍较低的准确度,则可以使用CMUSphinx等开源软件。
问题还在于如何从voip软件获取音频流,你必须自己破解它。或者你必须重新录制在扬声器上播放的内容,这并不总是一个好主意。
答案 1 :(得分:1)
1)我使用LoopBack进行应用内音频路由,本质上是一个虚拟混音器,可将音频从1个应用程序传送到另一个应用程序。它显示为音频输入设备并且还允许监控 - 因此您可以收听并流式传输到另一个应用程序。
2和3)不是我的专业领域,但我可能会调查任何谷歌API(正如尼古拉所说)开始我的研究。