做一些一般性研究。是否有任何开源(甚至付费?)工具/程序执行以下操作:
INPUT:一个未标记语音的音频文件,可能只有几句话,(没有迹象表明音频中的语音转录)
OUTPUT:带有语音转录的音频文件(在IPA alphebet中)在音频上对齐并标记
这可能只用一个拼音字典而不用单词字典来完成吗?
答案 0 :(得分:1)
Sphinx具有所有手机功能,可以产生这种输出假设。但是,通过使用语音字典和n-gram语言模型,大多数语音识别得到了强有力的改善。可以在创建假设时使用这些东西,然后将其转换为与Sphinx标记的对齐音素。
这是一个只有语音内容的例子。
http://cmusphinx.sourceforge.net/wiki/phonemerecognition
但是我已经退出讲话rec游戏很长一段时间了。我相信现在大多数人都在为这些概念寻求神经网络,而且我不知道那个空间里有任何开放的神经网络。