标签: speech-to-text google-speech-api google-cloud-speech
是否可以(或即将推出)将视频文件上传到Google语音转文本API,而无需事先将其转码为音频文件,然后再将其编码为.flac或LINEAR16?
我已经尝试过我能想到的所有组合,以使新的视频模型(当前处于Beta版)接受mp4视频文件,但无法实现。
偶然地,我注意到Speech-to-Text API demo 成功导入了mp4文件并产生了转录。这是否意味着该功能当前可用,但文档尚未发布?也许它将很快到来?任何对此的见解将不胜感激。