应用错误收集

时间：2009-12-05 02:38:58

标签： algorithm speech-to-text phonetics

我从很小的时候就患有严重的耳聋，但幸运的是，我可以像普通人一样说话。语言交流对我来说一直很困难，因为我的语音识别能力受损，即使是唇读也是如此。我只是通过阅读电路板，幻灯片，书籍和互联网来经历学校和大学。我在目前的软件工程工作中做得非常好，但是最近我觉得我必须付出一些努力来改善我的情况。

字幕是这个国家的救星，能够理解电视上的电影/节目，我在过去的7年里一直很享受这一点（我现在31岁）。

每当我和某些人，甚至是陌生人交谈时，我都强烈地感到需要能够在现实生活中看到字幕。我想开发一个未经训练的语音到文本转换器，作为一个开始，它甚至不必为我拼出准确的单词，只有音节/语音的提示也会没问题。

我已经用谷歌搜索了一段时间，但大多数结果是文本到语音或语音识别的半成品尝试，以向计算机发出语音命令。我真的想得到一些关于如何开始这个项目的指示。具体来说，我需要一些步骤，比如如何处理音频文件，以及我需要采取哪种处理来尽可能快地获得近似语音。

答案 0 :(得分：3)

您可能希望查看实时发送语音的CMU's Sphinx project。他们有一些demos可以试用。

答案 1 :(得分：1)

看看DSP guide，它更多的是关于低级别的东西，但傅里叶变换和过滤等技术对音频处理非常重要。即使你不是从头开始，也可以很好地理解原理和应用。

那就是说，我敢打赌，从头开始，人们可以通过几天的工作来创造一些可以区分一组基本声音的东西......

答案 2 :(得分：1)

以下是一些可能为您提供想法的其他问题：

祝你好运。