对于测试,我使用了Google语音api示例(https://cloud.google.com/speech-to-text/docs/reference/rest/v1/speech/recognize) 在那里我尝试了.ogg文件 这个(https://www.dropbox.com/s/lw66x3g143mtnsl/SpeechToText.ogg?dl=0) 我将音频文件转换为16000Hz 这是完整的请求
{
"audio": {
"content": " content "
},
"config": {
"encoding": "OGG_OPUS",
"languageCode": "de-DE",
"sampleRateHertz": 16000
}
}
然后我使用Base64编码器(https://www.giftofspeed.com/base64-encoder/转换了aduio文件)因此内容太长了。 现在我的问题我得到一个空洞的答案。我得到了代码200,但没有别的
感谢所有答案!
答案 0 :(得分:1)
您引用的.ogg文件网址是使用编解码器Vorbis而非Opus编码的。您可以使用opus-tools将音频文件编码为Opus文件,然后再将其提供给Google的服务
这是我用来将您的文件标识为Vorbis的调试:
<强> opusinfo 强>
$ opusinfo SpeechToText.ogg
Processing file "SpeechToText.ogg"...
Use ogginfo for more information on this file.
New logical stream (#1, serial: ffe6c0ca): type Vorbis
Logical stream 1 ended
<强>的ffmpeg 强>
$ ffmpeg -i SpeechToText.ogg
ffmpeg version 3.4.2 Copyright (c) 2000-2018 the FFmpeg developers
Input #0, ogg, from 'SpeechToText.ogg':
Duration: 00:00:03.41, start: 0.000000, bitrate: 116 kb/s
Stream #0:0: Audio: vorbis, 16000 Hz, stereo, fltp, 160 kb/s
Metadata:
ENCODER : Lavc58.18.100 libvorbis