对于相同的音频文件,Google Speech API输出每次都会更改。有没有办法获得相同的输出或修复抄录员使用的模型?
答案 0 :(得分:0)
您可能正在使用“默认”模型。推荐用于音频。但是我发现(并不是我一个人)那不是那么好。您最好使用“视频”模型(它是增强模型之一,并且需要数据记录)。我建议即使您只转录音频,也请尝试使用视频模型。
此外,如果您要转录的文件中有通用主题,请尝试向API提供一些通用短语。执行此操作后,结果会大大改善,并且会保持稳定。 (参考:SpeechContext)