根据documentation,对于LINEAR16音频,audioChannelCount可以为1-8。
我正在使用具有8个通道的PCM WAV文件。问题是: -它只能识别前两个频道上的单词。 -将channelTag设置为错误,应为1和2,而不是7和8。
请求:
{
"audio": {
"uri": "gs://<my-bucket>/test.wav"
},
"config": {
"encoding": "LINEAR16",
"sampleRateHertz": 22050,
"languageCode": "en-UK",
"enableWordTimeOffsets": true,
"audioChannelCount": 8,
"enableSeparateRecognitionPerChannel": true
}
}
响应:
{
"results": [
{
"alternatives": [
{
"transcript": "2",
"confidence": 0.88366675,
"words": [
{
"startTime": "0s",
"endTime": "3s",
"word": "2"
}
]
}
],
"channelTag": 8
},
{
"alternatives": [
{
"transcript": "1",
"confidence": 0.8546934,
"words": [
{
"startTime": "0.800s",
"endTime": "1.800s",
"word": "1"
}
]
}
],
"channelTag": 7
}
]
}
我希望所有8个频道都将被转录并且channelTags将是正确的。
我认为始终只能识别前两个通道,但是当使用具有两个通道的wav时,我发现第一个通道根本没有被转录。因此,这也是一个相关问题。