我制作了一个脚本,以使用语音文本API。它可以很好地处理一种音频(它是将m4a转换为wav),但对于另一种相似的音频(相同来源,m4a则转换成wav),它会失败很多(大部分文本丢失)。两种音频听起来都很相似(至少在我耳边),但是结果却截然不同。 我已经设置了元数据和配置,但我不知道还能尝试什么来改善结果。
相关参数:
metadata = {
"original_media_type": enums.RecognitionMetadata.OriginalMediaType.AUDIO,
"original_mime_type": 'audio/m4a',
}
sample_rate_hertz = 44100
encoding = enums.RecognitionConfig.AudioEncoding.LINEAR16
config = {
"metadata": metadata,
"sample_rate_hertz": sample_rate_hertz,
"audio_channel_count": 2,
"language_code": language_code,
"encoding": encoding}
由于其中一个文件被解析为可接受的结果,因此我可以得出结论,我的代码是可以的,这就是为什么我在考虑更改参数以修复其他音频。
对不起,我无法分享原始音频。
答案 0 :(得分:1)
您可以查看音频输入,并认为audio format is not equal to an audio encoding。
基于此,我建议验证所使用的编码或尝试一种区别。您还可以检查云语音转文本best practices。
还要确认supported audio encodings,似乎Cloud Speech-to-Text支持WAV files with LINEAR16 or MULAW encoded audio。