云语音-使用本机音频编码(audio / ogg; codecs = opus)时为空响应

时间:2019-09-06 17:32:02

标签: node.js google-cloud-speech

什么不起作用-在

的Firefox上使用this sample
 mimeType: 'audio/ogg; codecs=opus'

创建ffprobe显示的音频输出(ff_recording),如下所示:

  libswresample   2.  9.100 /  2.  9.100
  libpostproc    54.  7.100 / 54.  7.100
Input #0, ogg, from 'ff_recording':
  Duration: 00:00:06.00, start: 0.000000, bitrate: 52 kb/s
    Stream #0:0: Audio: opus, 48000 Hz, mono, fltp
    Metadata:
      ENCODER         : Mozilla68.0

使用gsutil上传并提供给以下云语音CLI时,响应为空对象(表示编码错误)

"config": {
      "encoding":"OGG_OPUS",
      "sampleRateHertz": 48000,
      "languageCode": "en-US",
      "enableWordTimeOffsets": false
  },
  "audio": {
      "uri":"gs://demos-1b95f.appspot.com/audio/ff_recording.opus"
  }
...
curl -v -H "Content-Type: application/json" \
-H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \
https://speech.googleapis.com/v1/speech:recognize -d @sync-request.json

不知道上面的输入有什么问题,为什么它是空响应。

有效的方法:

使用非本机(emscriptem / node project中的非本地(完整的ogg,opus本机代码))opus编码,STT可以正常工作,并且ffprobe显示以下内容:

  libswresample   2.  9.100 /  2.  9.100
  libpostproc    54.  7.100 / 54.  7.100
Input #0, ogg, from 'native_record.opus':
  Duration: 00:00:08.42, start: 0.000000, bitrate: 50 kb/s
    Stream #0:0: Audio: opus, 48000 Hz, mono, fltp
问题:向项目添加(ogg,opus,speechx)的完全依赖项,避免(emscriptem,wasm)的完全构建依赖项。 但是,以相同采样率进行的本机浏览器编码(firefox,'audio / ogg; codecs = opus')无法正常工作。空对象是来自API的响应。

0 个答案:

没有答案