我正在尝试查找像Keith Ito制作的LJ Speech Dataset这样的数据库。我需要在TacoTron 2(Link)中使用这些数据集,因此我认为数据集需要以某种方式进行结构化。 LJ数据库直接链接到tacotron 2 github页面,因此我认为可以假定它是可以使用的。因此,我认为数据库应具有与LJ相同的结构。我下载了数据集,发现它的结构如下:
main folder:
-wavs
-001.wav
-002.wav
-etc
-metadata.csv: This file is a csv file which contains all the things said in every .wav, in a form like this **001.wav | hello etc.**
所以,我的问题是:还有其他类似的数据集需要进一步培训吗?
但是我认为可能存在问题,例如,来自一个数据集的声音会彼此不同,这会引起太多问题吗? 还有不同的s语或类似的东西也会引起问题吗?
答案 0 :(得分:0)
有一些资源:
我要看的主要是Festvox(又名CMU artic)http://www.festvox.org/dbs/index.html和LibriVoc https://librivox.org/
这些家伙似乎正在维护清单 https://github.com/candlewill/Speech-Corpus-Collection
我是一个项目的一部分,该项目正在收集更多(无耻的自我插入):https://github.com/Idlak/Living-Audio-Dataset
答案 1 :(得分:0)
Mozilla 包含一个包含多个数据集的数据库,如果您不需要自己的自定义语言或语音,您可以下载和使用:https://voice.mozilla.org/data
或者,您可以按照您在 OP 中概述的结构创建自己的数据集。 metadata.csv
文件需要至少包含两列——第一列是 WAV 文件的路径/名称(不带 .wav
扩展名),第二列是已朗读的文本。
除非您使用扬声器嵌入/多扬声器模型训练 Tacotron,否则您会希望所有录音都来自同一个扬声器。理想情况下,音频质量应该与最低限度的背景噪音非常一致。使用 RNNoise 可以去除一些背景噪音。您可以将 a script in the Mozilla Discourse group 用作参考。所有录音文件都必须是简短的、22050 Hz、16 位的音频剪辑。
至于炉渣或地方口语——不确定;我怀疑只要单词的发音与所写的内容相匹配(即音素匹配),我就希望系统能够处理它。 Tacotron 能够处理/训练多种语言。
如果您没有资源来制作自己的录音,您可以使用目标语言的许可有声读物中的音频。这里有一个关于这个主题的教程:https://medium.com/@klintcho/creating-an-open-speech-recognition-dataset-for-almost-any-language-c532fb2bc0cf
教程有你:
metadata.csv
文件。 (帖子描述的格式似乎包含了额外的列,这些列实际上并不是训练所需要的,主要供 Mozilla 的在线数据库使用)。然后,您可以将此数据集用于支持 LJSpeech 的系统,例如 Mozilla TTS。