提高Google Cloud Speech API的准确性

时间:2018-08-16 21:03:56

标签: node.js ffmpeg speech-to-text google-cloud-speech

我目前正在Mac OS计算机上从网页上录制音频,并通过云语音API运行该音频以生成笔录。但是,结果的准确性不高,结果中缺少大量单词。

是否有任何步骤可以帮助我获得更准确的结果?

以下是我将音频转换为文本的步骤:

  1. 使用Soundflower将音频输出从我的声卡传输到麦克风。
  2. 播放网站音频
  3. 使用quickTime播放器录制保存为.m4a文件的音频。
  4. 使用命令行工具ffmpeg将.m4a文件转换为 .flac,并将2个音频通道(立体声)组合为1个音频通道(单声道)。
  5. 将.flac文件上传到Google Cloud Storage。该文件的采样率为44100Hz,每个采样具有24位。
  6. 通过node.js客户端库使用longRunningRecognize api, 指向Google云存储中的文件。

1 个答案:

答案 0 :(得分:4)

语音到文本API 方面,我建议您验证自己是否遵循Best Practices建议,例如避免背景噪音过大和多个人同时讲话这些方面会影响服务识别。

我认为您具有良好的采样率轻松的编解码器;但是,请记住,音频pre-processing可能会影响音频质量。在这种情况下,最好避免重新采样,不过,您可以尝试使用不同的音频格式来验证哪种格式可获得最准确的结果。

此外,您可以使用languageCodephrase hints API属性,这些属性通常用于提高识别精度。