Question

我制作了一个脚本，以使用语音文本API。它可以很好地处理一种音频（它是将m4a转换为wav），但对于另一种相似的音频（相同来源，m4a则转换成wav），它会失败很多（大部分文本丢失）。两种音频听起来都很相似（至少在我耳边），但是结果却截然不同。我已经设置了元数据和配置，但我不知道还能尝试什么来改善结果。

相关参数：

metadata = {
        "original_media_type": enums.RecognitionMetadata.OriginalMediaType.AUDIO,
        "original_mime_type": 'audio/m4a',
}

sample_rate_hertz = 44100
encoding = enums.RecognitionConfig.AudioEncoding.LINEAR16

config = {
      "metadata": metadata,
      "sample_rate_hertz": sample_rate_hertz,
      "audio_channel_count": 2,
      "language_code": language_code,
       "encoding": encoding}

由于其中一个文件被解析为可接受的结果，因此我可以得出结论，我的代码是可以的，这就是为什么我在考虑更改参数以修复其他音频。

对不起，我无法分享原始音频。

Answer 1

您可以查看音频输入，并认为audio format is not equal to an audio encoding。

基于此，我建议验证所使用的编码或尝试一种区别。您还可以检查云语音转文本best practices。

还要确认supported audio encodings，似乎Cloud Speech-to-Text支持WAV files with LINEAR16 or MULAW encoded audio。

Google对文本的语音无法识别很多音频

1 个答案: