Question

我想要做的是创建一个将人类语音翻译成IPA（国际音标）格式的API。我的问题是，关于如何在原始音频波形的水平上解码语音的资源在哪里。我找了一个API，但我发现的大部分内容都直接翻译成罗马字母。我正在寻找能够区分声音语音的更准确的东西。

Answer 1

我首先要说的是，这个项目比你想象的要困难得多。语音处理是一个非常庞大而复杂的领域，已经进行了大量的研究。大多数解析器将事物直接发送到罗马字符的原因是因为他们的大部分处理是模糊声音与其他模糊声音的上下文的概率匹配，以猜测哪些单词在一起有意义。您更有可能找到能够为您提供Soundex而不是IPA的东西。也就是说，这是一个在几个方面已经接近的问题。你最好的选择可能是CMU的Sphinx项目。

http://cmusphinx.sourceforge.net/wiki/start

这将为您提供一个良好的开端，但您假设语音到文本处理比实际更加发达，并且没有简单的方法通过波形以任何精度将语音转换为IPA 。 Sphinx非常模块化，完全开源，因此它可以为您提供大量的动力，此时您是否能够弄清楚如何完成这项工作取决于您，但同样重要。这不是任何解决的问题。

如何解码语音输入

1 个答案: