我已经使用Google Cloud语音到文本API将音频转换为文本。
对于.raw
文件,它工作正常
但是对于.wav
个文件,它给我类似以下错误:
Google :: Gax :: RetryError异常:在发生了GaxError异常 由3引起的未归类为瞬态的重试方法 使用单声道(单声道)音频,但WAV标头指示2个声道。
我正在使用语音转文本API的ruby实现。
我已经保存在资产中的test.wav文件。
我使用MULAW作为编码,并且省略了采样率。
有人可以帮我吗?
答案 0 :(得分:3)
有一个Beta功能,您可以用来指定用于转录具有多个通道[1]的音频的音频通道数。
如果您正在执行POST请求,则可以指定:
'audioChannelCount':2,
'enableSeparateRecognitionPerChannel':是
当您在另一个频道(例如电话)上录制了不同的人时,第二个特别有用。您可以在下面的文档中详细了解此内容,它还提供了使用Java或Python客户端库时将使用的代码。
如果要使用一个声道或每个声道一个音频,我建议检查sox工具[2],该工具可让您以编程方式将声道合并为1或使用混音来获得每个声道的音频。 / p>
[1] https://cloud.google.com/speech-to-text/docs/multi-channel