Question

我正在寻找一些关于从零创建文本到语音程序的研究，而不使用任何现有的TTS工具，库等。主要是关于创建和组合音频片段的规则。

我希望将它用于少数罕见的古代语言，并且语言本身具有非常简化的环境。首先，它不是大范围的语言基础大约1000个单词，其次是发音，因为它是写的，所以发音绝对等于单词中的每个字母，例如单词：

parjashif

这意味着“父亲”和“父亲之子”音节都是：

par  
ja
shif

以及具有相同部分的其他单词的所有存在变体是：

par
ja

1.shif
2.kif
3.hof
4.hefi

这就是全部，正如您所看到的，只有4种变体

所以，只有必须考虑的事情，就是存在音节之间的连接间隔，才能使发音听起来不离散。

Answer 1

这是正确实施的文本到语音转换软件的技巧。发音取决于语境，如果你不关心语境，声音将是离散的和不自然的。适当的系统在上下文中记录所有音节，当选择它们进行连接时，它会非常注意元素之间的平滑过渡。

您可以选择在双音素上拆分原始数据库并尝试连接双音素而不是音节。它会更加顺畅。

总的来说，即使你从头开始，最好先阅读理论。至少像保罗·泰勒这样的Building Synthetic Voices或“语音合成”教科书。