Google Cloud语音转文本多个通道不起作用

时间:2019-07-23 12:08:13

标签: google-speech-api google-cloud-speech

根据documentation,对于LINEAR16音频,audioChannelCount可以为1-8。

我正在使用具有8个通道的PCM WAV文件。问题是: -它只能识别前两个频道上的单词。 -将channelTag设置为错误,应为1和2,而不是7和8。

请求:

{
    "audio": {
        "uri": "gs://<my-bucket>/test.wav"
    },
    "config": {
        "encoding": "LINEAR16",
        "sampleRateHertz": 22050,
        "languageCode": "en-UK",
        "enableWordTimeOffsets": true,
        "audioChannelCount": 8,
        "enableSeparateRecognitionPerChannel": true
    }
}

响应:

{
  "results": [
    {
      "alternatives": [
        {
          "transcript": "2",
          "confidence": 0.88366675,
          "words": [
            {
              "startTime": "0s",
              "endTime": "3s",
              "word": "2"
            }
          ]
        }
      ],
      "channelTag": 8
    },
    {
      "alternatives": [
        {
          "transcript": "1",
          "confidence": 0.8546934,
          "words": [
            {
              "startTime": "0.800s",
              "endTime": "1.800s",
              "word": "1"
            }
          ]
        }
      ],
      "channelTag": 7
    }
  ]
}

我希望所有8个频道都将被转录并且channelTags将是正确的。

我认为始终只能识别前两个通道,但是当使用具有两个通道的wav时,我发现第一个通道根本没有被转录。因此,这也是一个相关问题。

0 个答案:

没有答案