Google对文本的语音无法识别很多音频

时间:2020-01-22 23:35:51

标签: google-cloud-platform speech-recognition google-speech-api

我制作了一个脚本,以使用语音文本API。它可以很好地处理一种音频(它是将m4a转换为wav),但对于另一种相似的音频(相同来源,m4a则转换成wav),它会失败很多(大部分文本丢失)。两种音频听起来都很相似(至少在我耳边),但是结果却截然不同。 我已经设置了元数据和配置,但我不知道还能尝试什么来改善结果。

相关参数:

metadata = {
        "original_media_type": enums.RecognitionMetadata.OriginalMediaType.AUDIO,
        "original_mime_type": 'audio/m4a',
}

sample_rate_hertz = 44100
encoding = enums.RecognitionConfig.AudioEncoding.LINEAR16

config = {
      "metadata": metadata,
      "sample_rate_hertz": sample_rate_hertz,
      "audio_channel_count": 2,
      "language_code": language_code,
       "encoding": encoding}

由于其中一个文件被解析为可接受的结果,因此我可以得出结论,我的代码是可以的,这就是为什么我在考虑更改参数以修复其他音频。

对不起,我无法分享原始音频。

1 个答案:

答案 0 :(得分:1)

您可以查看音频输入,并认为audio format is not equal to an audio encoding

基于此,我建议验证所使用的编码或尝试一种区别。您还可以检查云语音转文本best practices

还要确认supported audio encodings,似乎Cloud Speech-to-Text支持WAV files with LINEAR16 or MULAW encoded audio