如何提高Google Speech API

时间:2017-09-23 09:43:07

标签: python google-speech-api

我目前正在使用Google Speech API(Python)开发语音识别服务。

除了现在用作样本的韩国听力评估mp3文件中的配音演员的声音外,没有声音。

我目前在将我的mp3文件转换为FLAC并将其上传到Google存储空间后使用long_running_recognize,但文件的准确率仅为60%,持续2分钟。

我认为我使用最直观的数据作为样本,我想知道文件的长度是否会影响识别率以及是否可以提高性能。

1 个答案:

答案 0 :(得分:0)

您可能没有得到任何答复(自您发布以来已经有11个月了),因为置信度得分不取决于您-它只是Google的一种让您知道其模型成绩单预测的自信程度的方法输入您的输入文件。如果您想要更高的信心,请提供“更容易理解”的音频文件(清晰的录音,缓慢的,清晰的语音,没有口音等)。

但是,您可以做一些事情。您应该尝试使用无损音频(.flac或.wav),每个采样至少16位并且采样率高(大多数人尝试以44100赫兹的频率进行录制)。重要的是,在转录之前,请勿对音频执行任何背景噪音消除操作。 Google Speech API会分析噪音并将其用于清理其管道中的文件-通过消除噪音,您可以破坏其转录管道。

您可以在https://cloud.google.com/speech-to-text/docs/best-practices

上详细了解有关改善转录的最佳做法(可能还有置信度得分)。