将API与瑞典语语音sv-SE-Wavenet-A
配合使用,似乎音频质量会随着文本的变长而降低。
短文本:
请务必先对日志进行确认,然后再进行tvångsfinansieringav en Kanal Som在retretts tappade sex pro av tittartiden下。直到 荡妇kommer ingen titta,男人alla kommerändåtvingas betala。
长文本(加粗=上方的短文本):
SVT后背性爱-恩斯塔德·特雷杰德尔·蒂塔斯-特温加斯贝塔 MMS VisarPåAtt的优先级 vuxendagiset SVT tappade性别pro av罪恶tittartid在2018年下。Nu SVT,男性所有 Sverige tvingasändåbetala sedanårsskiftet。 SVT。 SVT:s tittarsiffror 直到达到34.9%的Tappade我才能找到Kallad tittartidsandel。 Dettvångsfinansierade vuxendagiset haralltsåbara en dryg tredjedel av tittartiden,男子 瑞典医学杂志 MMS,SVT和SVT的价格分别为34.9%和 TV4占31.9%,Discovery Networks占11.9%,北欧 娱乐集团11.6%。发现墨水盒Kanal 5 och Nordic 娱乐电视3。 请务必将日志发送到 在retretalltåtappade做爱的情况下,在kanal som上进行视频 procent av tittartiden。直到荡妇kommer ingen titta,男人alla kommer ändåtvingas betala。社会主义基本功 社会主义乡村主义。德恩人 斯卡姆·阿特·德·博格里加党派 tvångsfinansieringenav detkonsekvenslösavuxendagiset。拉普利格 SVT,索姆维勒贝塔拉斯特拉大街 göradet ochövriga拖鞋。您可以在SVT跑车上玩我的作品。 Tills detta sker kommer博客来自bevaka SVT:s费尔斯泰格,男士 到annälningar,直到granskningsnämndenej skagörasdådet legitimerar ett sjukt och heltkonsekvenslöstmeningslöst系统。无级变速器 ärett aktiebolag,sm besitterbeskattningsrätt和svenska民谣。 民主运动党总书记 因果报应与其他人一起参加。塞文 kommentarsreglerna,油墨listan med kommentatorer som automatiskt Kommer raderaspågrund av brott mot dessa。基因组学 萨姆蒂克山庄直到蒂姆斯特尔,蒂什姆佩尔 与Google的Blogger系统相关的笔名sparas, dvssålängeblogginläggetärpublicerat。
API请求
const textToSpeech = require('@google-cloud/text-to-speech')
const client = new textToSpeech.TextToSpeechClient()
client.synthesizeSpeech({
input: text,
voice: {
languageCode: 'sv-SE',
ssmlGender: 'FEMALE',
name: 'sv-SE-Wavenet-A',
},
audioConfig: {
audioEncoding: 'MP3',
},
})
API的结果
音频比较首先播放我发送短文本时得到的结果。然后,它播放相同的文本,但是从发送长文本时得到的结果中删除。最后,它将它们一起播放。
这是错误还是预期的?使用en-US或en-GB语音时,我根本没有发现质量下降。
我注意到瑞典语语音与所有其他语音使用不同的naturalSampleRateHertz,也许这可能会导致这种情况?
答案 0 :(得分:4)
这可能与使用MP3 as encoding format有关,而不是与其他语言的任何采样率差异有关。由于MP3是一种有损格式,因此可能会损失一些质量。短文件和长文件之间的差异可能与使用MP3 encoding algorithm有关。
我已经检查了Speech Synthesis API,并且“ sv-SE-Wavenet-A”声音似乎使用了24000的naturalSampleRateHertz,因为我检查了所有的wavenet(全部en-US- Wavenet的声音也有24000。
我建议您将change the audioEncoding flag改成其他编码格式,例如“ OGG_OPUS”,这样会产生更好的音频质量。
audioConfig: {
audioEncoding: 'OGG_OPUS',
},
如果必须使用MP3格式,则可以在自己的旁边更改格式,以便选择在MP3编码中认为方便的参数,以确保在压缩音频文件的同时获得最高的音频质量。