不同的<prosody> ssml值在Google文本到语音中生成相同的音频

时间:2019-04-30 09:49:41

标签: google-text-to-speech ssml

使用WaveNet语音时,使用ssml时无法生成不同的音频波。

int cntThread=0;
    long tLoop_0 = 1;
    long tLoop_1 = tLoop_0 + 40000000;
    while (tLoop_1 <= Long.parseLong((row1.maxID).toString())){globalMap.put("threadCount",String.valueOf(cntThread));
    sharedList.add(new java.util.HashMap(){{
        put("start_id",String.valueOf(tLoop_0));
        put("end_id",String.valueOf(tLoop_1));
        put("threadNum",(String)globalMap.get("threadCount"));   
    }}
    );
    cntThread++;
    tLoop_0 = tLoop_1;
    tLoop_1 = tLoop_1 + 40000000;

使用强调标签会产生相同的结果。

我们正在使用Google Cloud Text-to-Speech中的Python API请求生成音频。

我想在每个样本中听到不同的声音强度。

请注意,我们也尝试对“”进行转义,但不会对所生成的音频造成任何影响。

https://issuetracker.google.com/issues/131618213

1 个答案:

答案 0 :(得分:0)

我不知道Python sdk的外观如何,但是我目前正在将他们的NodeJs sdk用于TTS。

似乎这些韵律属性(速率,音量,音调)(而不是设置和传递您的ssml文本)应该直接在将发送到Google TTS api的请求对象中进行配置。