我认为谷歌的文字设施演讲(谷歌语音自动转录语音邮件,YouTube上的视频自动字幕等)令人印象深刻。
我确实想看看Google是否通过API提供了它,而且似乎没有(不是我责怪他们!)。提供语音到文本功能的云计算服务虽然很酷。
我是否可以使用某种“黑客”来访问语音文本。我的架构基本上归结为这个 - 一个短的15-20秒wav / mp3 /其他剪辑作为输入,输出是纯文本。
任何人的想法?
答案 0 :(得分:3)
文本API有很多语音。仅仅因为谷歌没有提供它们,这并不意味着你运气不好。
这是一个很好的C#。如果不是.NET,您可以为您的平台搜索其他人。
答案 1 :(得分:2)
答案 2 :(得分:1)
它可以通过Chrome 8或Opera在HTML5中使用: https://docs.google.com/View?id=dcfg79pz_5dhnp23f5&pli=1
Google语音技术也可通过Android手机上的Android API访问。
其他产品,如Sphinx,是语音识别引擎,在特定领域中效果最佳,而不是“无约束”的语音到文本。
答案 3 :(得分:1)
以下是Peter Moffatt建议的更近期,更“官方”的版本:
http://lists.w3.org/Archives/Public/public-xg-htmlspeech/2011Feb/att-0020/api-draft.html
Google的相关公告:
http://chrome.blogspot.com/2011/03/talking-to-your-computer-with-html5.html
答案 4 :(得分:1)
您可以使用C#查看以下实现 - 我使用了Mike Pultz链接。
https://github.com/seigneur/Voice-Biometrics 我使用Sox转换为flac,创建了一个小的SOX脚本将其拆分成块。
答案 5 :(得分:1)
如果你真的想要谷歌的输出......这是一个Hack方法
您是否考虑过制作手机提交引擎? 基本上它调用你的谷歌语音邮件...播放MP3。
通过https://code.google.com/p/google-voice-java/
抓取输出更好的答案。