我从很小的时候就患有严重的耳聋,但幸运的是,我可以像普通人一样说话。语言交流对我来说一直很困难,因为我的语音识别能力受损,即使是唇读也是如此。我只是通过阅读电路板,幻灯片,书籍和互联网来经历学校和大学。我在目前的软件工程工作中做得非常好,但是最近我觉得我必须付出一些努力来改善我的情况。
字幕是这个国家的救星,能够理解电视上的电影/节目,我在过去的7年里一直很享受这一点(我现在31岁)。
每当我和某些人,甚至是陌生人交谈时,我都强烈地感到需要能够在现实生活中看到字幕。我想开发一个未经训练的语音到文本转换器,作为一个开始,它甚至不必为我拼出准确的单词,只有音节/语音的提示也会没问题。
我已经用谷歌搜索了一段时间,但大多数结果是文本到语音或语音识别的半成品尝试,以向计算机发出语音命令。我真的想得到一些关于如何开始这个项目的指示。具体来说,我需要一些步骤,比如如何处理音频文件,以及我需要采取哪种处理来尽可能快地获得近似语音。
答案 0 :(得分:3)
您可能希望查看实时发送语音的CMU's Sphinx project。他们有一些demos可以试用。
答案 1 :(得分:1)
看看DSP guide,它更多的是关于低级别的东西,但傅里叶变换和过滤等技术对音频处理非常重要。即使你不是从头开始,也可以很好地理解原理和应用。
那就是说,我敢打赌,从头开始,人们可以通过几天的工作来创造一些可以区分一组基本声音的东西......
答案 2 :(得分:1)
以下是一些可能为您提供想法的其他问题:
祝你好运。