在Google-Cloud-Speech中识别.wav音频文件时出现问题

时间:2018-08-09 19:09:40

标签: speech-to-text google-cloud-speech

我已经使用Google Cloud语音到文本API将音频转换为文本。

对于.raw文件,它工作正常

但是对于.wav个文件,它给我类似以下错误:

  

Google :: Gax :: RetryError异常:在发生了GaxError异常   由3引起的未归类为瞬态的重试方法   使用单声道(单声道)音频,但WAV标头指示2个声道。

我正在使用语音转文本API的ruby实现。

我已经保存在资产中的test.wav文件。

我使用MULAW作为编码,并且省略了采样率。

有人可以帮我吗?

1 个答案:

答案 0 :(得分:3)

有一个Beta功能,您可以用来指定用于转录具有多个通道[1]的音频的音频通道数。

如果您正在执行POST请求,则可以指定:

'audioChannelCount':2,

'enableSeparateRecognitionPerChannel':是

当您在另一个频道(例如电话)上录制了不同的人时,第二个特别有用。您可以在下面的文档中详细了解此内容,它还提供了使用Java或Python客户端库时将使用的代码。

如果要使用一个声道或每个声道一个音频,我建议检查sox工具[2],该工具可让您以编程方式将声道合并为1或使用混音来获得每个声道的音频。 / p>


[1] https://cloud.google.com/speech-to-text/docs/multi-channel

[2] http://sox.sourceforge.net/sox.html