我第一次使用GCS语音API进行项目转换,将一系列音频文件转换为文本。每个档案大约有60分钟,并且是一个人在整个时间内不断讲话的过程。 我已经安装了GC SDK,并使用它来执行如下所示的请求:
gcloud ml speech recognize-long-running \
"/path/to/file/audio.flac" \
--language-code="pt-PT" --async
每次在其中一个录音上运行此命令时,都会显示以下错误消息:
ERROR: (gcloud.ml.speech.recognize-long-running) INVALID_ARGUMENT:
Request payload size exceeds the limit: 10485760 bytes.
这似乎是一个非常困难的限制,因为如果API能够处理长达180分钟的文件,则无法输出最多10,000个字符的语音。
我试图将音频文件分成较小的部分,并进行了多达四个15分钟的采样,即使如此,我也遇到了同样的错误。此外,即使有效,将我制作的每张新唱片从现在开始拆分也是一件非常乏味且不切实际的任务。
我一直在搜索,到目前为止,关于如何增加或规避此限制我还没有得出任何结论。我正在使用免费试用帐户,但很高兴升级到付费订阅以增加此限制。据我了解,即使我使用付费订阅,该限制也会持续存在。
有人找到这个问题的解决方案了吗?
答案 0 :(得分:1)
与Google Cloud支持人员交谈后,我得出的结论是,这是由于我的免费试用订阅和文件大小(约60分钟)受到限制。
升级到付费订阅并将文件上传到Google Cloud Storage后,我可以从转录中接收有效载荷。
$ gcloud ml speech recognize-long-running "gs://test-bucket/my_audio_file.flac" --language-code="pt-PT" --async
Check operation [7456984365978465938] for status.
{
"name": "7456984365978465938"
}
$ gcloud ml speech operations describe 7456984365978465938
{
... payload ...
}