如何将linear16文本到语音转换为音频文件

时间:2019-02-23 08:07:55

标签: audio encoding text-to-speech google-text-to-speech

我刚刚开始使用Google Text-To-Speech API。我生成了一个发帖请求:

https://texttospeech.googleapis.com/v1/text:synthesize?fields=audioContent&key={YOUR_API_KEY}

具有以下数据:

{
 "input": {
  "text": "Hola esto es una prueba"
},
 "voice": {
  "languageCode": "es-419"
 },
 "audioConfig": {
  "audioEncoding": "LINEAR16",
  "speakingRate": 1,
  "pitch": 0
 }
}

我收到200条答复,内容是:

{
    "audioContent" : "UklGRn6iCwBXQVZFZm10I...(super long string)"
}

我假设这是编码(或解码的,不确定名称),但是我想实际听到的是“ audioContent”。

1 个答案:

答案 0 :(得分:0)

正如Tanaike所指出的,响应确实是Base64。为了实际收听音频,我将base64编码的字符串粘贴到文件中,然后运行:

base64 -d audio.txt > audio.wav

就成功了。