如何对文本转换器进行未经训练的语音?

时间:2009-12-05 02:38:58

标签: algorithm speech-to-text phonetics

我从很小的时候就患有严重的耳聋,但幸运的是,我可以像普通人一样说话。语言交流对我来说一直很困难,因为我的语音识别能力受损,即使是唇读也是如此。我只是通过阅读电路板,幻灯片,书籍和互联网来经历学校和大学。我在目前的软件工程工作中做得非常好,但是最近我觉得我必须付出一些努力来改善我的情况。

字幕是这个国家的救星,能够理解电视上的电影/节目,我在过去的7年里一直很享受这一点(我现在31岁)。

每当我和某些人,甚至是陌生人交谈时,我都强烈地感到需要能够在现实生活中看到字幕。我想开发一个未经训练的语音到文本转换器,作为一个开始,它甚至不必为我拼出准确的单词,只有音节/语音的提示也会没问题。

我已经用谷歌搜索了一段时间,但大多数结果是文本到语音或语音识别的半成品尝试,以向计算机发出语音命令。我真的想得到一些关于如何开始这个项目的指示。具体来说,我需要一些步骤,比如如何处理音频文件,以及我需要采取哪种处理来尽可能快地获得近似语音。

3 个答案:

答案 0 :(得分:3)

您可能希望查看实时发送语音的CMU's Sphinx project。他们有一些demos可以试用。

答案 1 :(得分:1)

看看DSP guide,它更多的是关于低级别的东西,但傅里叶变换和过滤等技术对音频处理非常重要。即使你不是从头开始,也可以很好地理解原理和应用。

那就是说,我敢打赌,从头开始,人们可以通过几天的工作来创造一些可以区分一组基本声音的东西......

答案 2 :(得分:1)

以下是一些可能为您提供想法的其他问题:

然后看看SIL Linguistics Computing

祝你好运。