什么不起作用-在
的Firefox上使用this sample mimeType: 'audio/ogg; codecs=opus'
创建ffprobe显示的音频输出(ff_recording),如下所示:
libswresample 2. 9.100 / 2. 9.100
libpostproc 54. 7.100 / 54. 7.100
Input #0, ogg, from 'ff_recording':
Duration: 00:00:06.00, start: 0.000000, bitrate: 52 kb/s
Stream #0:0: Audio: opus, 48000 Hz, mono, fltp
Metadata:
ENCODER : Mozilla68.0
使用gsutil上传并提供给以下云语音CLI时,响应为空对象(表示编码错误)
"config": {
"encoding":"OGG_OPUS",
"sampleRateHertz": 48000,
"languageCode": "en-US",
"enableWordTimeOffsets": false
},
"audio": {
"uri":"gs://demos-1b95f.appspot.com/audio/ff_recording.opus"
}
...
curl -v -H "Content-Type: application/json" \
-H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \
https://speech.googleapis.com/v1/speech:recognize -d @sync-request.json
不知道上面的输入有什么问题,为什么它是空响应。
有效的方法:
使用非本机(emscriptem / node project中的非本地(完整的ogg,opus本机代码))opus编码,STT可以正常工作,并且ffprobe显示以下内容:
libswresample 2. 9.100 / 2. 9.100
libpostproc 54. 7.100 / 54. 7.100
Input #0, ogg, from 'native_record.opus':
Duration: 00:00:08.42, start: 0.000000, bitrate: 50 kb/s
Stream #0:0: Audio: opus, 48000 Hz, mono, fltp
问题:向项目添加(ogg,opus,speechx)的完全依赖项,避免(emscriptem,wasm)的完全构建依赖项。
但是,以相同采样率进行的本机浏览器编码(firefox,'audio / ogg; codecs = opus')无法正常工作。空对象是来自API的响应。