我开发了一个使用语音到文本转录音频到文本的应用程序。准确性很低。有些句子没有意义。有没有办法提高语音到文本的准确性?
以下是一个例子:
http://book.vidalab.co/books/alice-in-wonderland
爱丽丝梦游仙境,第2部分:
“在家看到白色棋子这样看广告” 应该是“在家里过去以白色典当这种方式看到爱丽丝”
“白鼠” 应该是“红与白”
“和白军试图赢得和Trice双胞胎的红色” 应该是“白军试图赢,红军试图赢”
答案 0 :(得分:0)
任何STT系统都有两个主要部分:声学模型和语言模型。第一个是关于音频和扬声器,并处理诸如噪音,发音,重音等内容。语言模型是关于给定语言的结构和演讲中使用的单词。
如果您想测试STT,请使用尽可能接近目标语音的录音。对于一般语音或者例如医学转录而言表现非常好的系统在处理关于考古学或诗歌的演讲中可能不是很好。[/ p>