Question

将API与瑞典语语音sv-SE-Wavenet-A配合使用，似乎音频质量会随着文本的变长而降低。

短文本：

请务必先对日志进行确认，然后再进行tvångsfinansieringav en Kanal Som在retretts tappade sex pro av tittartiden下。直到荡妇kommer ingen titta，男人alla kommerändåtvingas betala。

长文本（加粗=上方的短文本）：

SVT后背性爱-恩斯塔德·特雷杰德尔·蒂塔斯-特温加斯贝塔 MMS VisarPåAtt的优先级 vuxendagiset SVT tappade性别pro av罪恶tittartid在2018年下。Nu SVT，男性所有 Sverige tvingasändåbetala sedanårsskiftet。 SVT。 SVT：s tittarsiffror 直到达到34.9％的Tappade我才能找到Kallad tittartidsandel。 Dettvångsfinansierade vuxendagiset haralltsåbara en dryg tredjedel av tittartiden，男子瑞典医学杂志 MMS，SVT和SVT的价格分别为34.9％和 TV4占31.9％，Discovery Networks占11.9％，北欧娱乐集团11.6％。发现墨水盒Kanal 5 och Nordic 娱乐电视3。 请务必将日志发送到 在retretalltåtappade做爱的情况下，在kanal som上进行视频 procent av tittartiden。直到荡妇kommer ingen titta，男人alla kommer ändåtvingas betala。社会主义基本功社会主义乡村主义。德恩人斯卡姆·阿特·德·博格里加党派 tvångsfinansieringenav detkonsekvenslösavuxendagiset。拉普利格 SVT，索姆维勒贝塔拉斯特拉大街 göradet ochövriga拖鞋。您可以在SVT跑车上玩我的作品。 Tills detta sker kommer博客来自bevaka SVT：s费尔斯泰格，男士到annälningar，直到granskningsnämndenej skagörasdådet legitimerar ett sjukt och heltkonsekvenslöstmeningslöst系统。无级变速器 ärett aktiebolag，sm besitterbeskattningsrätt和svenska民谣。民主运动党总书记因果报应与其他人一起参加。塞文 kommentarsreglerna，油墨listan med kommentatorer som automatiskt Kommer raderaspågrund av brott mot dessa。基因组学萨姆蒂克山庄直到蒂姆斯特尔，蒂什姆佩尔与Google的Blogger系统相关的笔名sparas， dvssålängeblogginläggetärpublicerat。

API请求

const textToSpeech = require('@google-cloud/text-to-speech')
const client = new textToSpeech.TextToSpeechClient()
client.synthesizeSpeech({
  input: text,
  voice: {
    languageCode: 'sv-SE',
    ssmlGender: 'FEMALE',
    name: 'sv-SE-Wavenet-A',
  },
  audioConfig: {
    audioEncoding: 'MP3',
  },
})

API的结果

音频比较首先播放我发送短文本时得到的结果。然后，它播放相同的文本，但是从发送长文本时得到的结果中删除。最后，它将它们一起播放。

这是错误还是预期的？使用en-US或en-GB语音时，我根本没有发现质量下降。

~~我注意到瑞典语语音与所有其他语音使用不同的naturalSampleRateHertz，也许这可能会导致这种情况？~~

Answer 1

这可能与使用MP3 as encoding format有关，而不是与其他语言的任何采样率差异有关。由于MP3是一种有损格式，因此可能会损失一些质量。短文件和长文件之间的差异可能与使用MP3 encoding algorithm有关。

我已经检查了Speech Synthesis API，并且“ sv-SE-Wavenet-A”声音似乎使用了24000的naturalSampleRateHertz，因为我检查了所有的wavenet（全部en-US- Wavenet的声音也有24000。

我建议您将change the audioEncoding flag改成其他编码格式，例如“ OGG_OPUS”，这样会产生更好的音频质量。

  audioConfig: {
    audioEncoding: 'OGG_OPUS',
  },

如果必须使用MP3格式，则可以在自己的旁边更改格式，以便选择在MP3编码中认为方便的参数，以确保在压缩音频文件的同时获得最高的音频质量。

Google的文本转语音（WaveNet）质量随着长文本而降低

1 个答案: