Google的文本转语音(WaveNet)质量随着长文本而降低

时间:2019-01-07 12:00:55

标签: google-cloud-platform text-to-speech google-text-to-speech

将API与瑞典语语音sv-SE-Wavenet-A配合使用,似乎音频质量会随着文本的变长而降低。

短文本:

  

请务必先对日志进行确认,然后再进行tvångsfinansieringav en   Kanal Som在retretts tappade sex pro av tittartiden下。直到   荡妇kommer ingen titta,男人alla kommerändåtvingas betala。

长文本(加粗=上方的短文本):

  

SVT后背性爱-恩斯塔德·特雷杰德尔·蒂塔斯-特温加斯贝塔   MMS VisarPåAtt的优先级   vuxendagiset SVT tappade性别pro av罪恶tittartid在2018年下。Nu   SVT,男性所有   Sverige tvingasändåbetala sedanårsskiftet。 SVT。 SVT:s tittarsiffror   直到达到34.9%的Tappade我才能找到Kallad tittartidsandel。 Dettvångsfinansierade   vuxendagiset haralltsåbara en dryg tredjedel av tittartiden,男子   瑞典医学杂志   MMS,SVT和SVT的价格分别为34.9%和   TV4占31.9%,Discovery Networks占11.9%,北欧   娱乐集团11.6%。发现墨水盒Kanal 5 och Nordic   娱乐电视3。 请务必将日志发送到   在retretalltåtappade做爱的情况下,在kanal som上进行视频    procent av tittartiden。直到荡妇kommer ingen titta,男人alla kommer   ändåtvingas betala。社会主义基本功   社会主义乡村主义。德恩人   斯卡姆·阿特·德·博格里加党派   tvångsfinansieringenav detkonsekvenslösavuxendagiset。拉普利格   SVT,索姆维勒贝塔拉斯特拉大街   göradet ochövriga拖鞋。您可以在SVT跑车上玩我的作品。   Tills detta sker kommer博客来自bevaka SVT:s费尔斯泰格,男士   到annälningar,直到granskningsnämndenej skagörasdådet   legitimerar ett sjukt och heltkonsekvenslöstmeningslöst系统。无级变速器   ärett aktiebolag,sm besitterbeskattningsrätt和svenska民谣。   民主运动党总书记   因果报应与其他人一起参加。塞文   kommentarsreglerna,油墨listan med kommentatorer som automatiskt   Kommer raderaspågrund av brott mot dessa。基因组学   萨姆蒂克山庄直到蒂姆斯特尔,蒂什姆佩尔   与Google的Blogger系统相关的笔名sparas,   dvssålängeblogginläggetärpublicerat。

API请求

const textToSpeech = require('@google-cloud/text-to-speech')
const client = new textToSpeech.TextToSpeechClient()
client.synthesizeSpeech({
  input: text,
  voice: {
    languageCode: 'sv-SE',
    ssmlGender: 'FEMALE',
    name: 'sv-SE-Wavenet-A',
  },
  audioConfig: {
    audioEncoding: 'MP3',
  },
})

API的结果

音频比较首先播放我发送短文本时得到的结果。然后,它播放相同的文本,但是从发送长文本时得到的结果中删除。最后,它将它们一起播放。

这是错误还是预期的?使用en-US或en-GB语音时,我根本没有发现质量下降。

我注意到瑞典语语音与所有其他语音使用不同的naturalSampleRateHertz,也许这可能会导致这种情况?

1 个答案:

答案 0 :(得分:4)

这可能与使用MP3 as encoding format有关,而不是与其他语言的任何采样率差异有关。由于MP3是一种有损格式,因此可能会损失一些质量。短文件和长文件之间的差异可能与使用MP3 encoding algorithm有关。

我已经检查了Speech Synthesis API,并且“ sv-SE-Wavenet-A”声音似乎使用了24000的naturalSampleRateHertz,因为我检查了所有的wavenet(全部en-US- Wavenet的声音也有24000。

我建议您将change the audioEncoding flag改成其他编码格式,例如“ OGG_OPUS”,这样会产生更好的音频质量。

  audioConfig: {
    audioEncoding: 'OGG_OPUS',
  },

如果必须使用MP3格式,则可以在自己的旁边更改格式,以便选择在MP3编码中认为方便的参数,以确保在压缩音频文件的同时获得最高的音频质量。