像“ LJ语音数据集”这样的数据集

时间:2018-07-01 12:06:57

标签: python dataset

我正在尝试查找像Keith Ito制作的LJ Speech Dataset这样的数据库。我需要在TacoTron 2(Link)中使用这些数据集,因此我认为数据集需要以某种方式进行结构化。 LJ数据库直接链接到tacotron 2 github页面,因此我认为可以假定它是可以使用的。因此,我认为数据库应具有与LJ相同的结构。我下载了数据集,发现它的结构如下:

main folder:

    -wavs

        -001.wav

        -002.wav

        -etc
    -metadata.csv: This file is a csv file which contains all the things said in every .wav, in a form like this **001.wav | hello etc.**

所以,我的问题是:还有其他类似的数据集需要进一步培训吗?

但是我认为可能存在问题,例如,来自一个数据集的声音会彼此不同,这会引起太多问题吗? 还有不同的s语或类似的东西也会引起问题吗?

2 个答案:

答案 0 :(得分:0)

有一些资源:

我要看的主要是Festvox(又名CMU artic)http://www.festvox.org/dbs/index.html和LibriVoc https://librivox.org/

这些家伙似乎正在维护清单 https://github.com/candlewill/Speech-Corpus-Collection

我是一个项目的一部分,该项目正在收集更多(无耻的自我插入):https://github.com/Idlak/Living-Audio-Dataset

答案 1 :(得分:0)

Mozilla 包含一个包含多个数据集的数据库,如果您不需要自己的自定义语言或语音,您可以下载和使用:https://voice.mozilla.org/data

或者,您可以按照您在 OP 中概述的结构创建自己的数据集。 metadata.csv 文件需要至少包含两列——第一列是 WAV 文件的路径/名称(不带 .wav 扩展名),第二列是已朗读的文本。

除非您使用扬声器嵌入/多扬声器模型训练 Tacotron,否则您会希望所有录音都来自同一个扬声器。理想情况下,音频质量应该与最低限度的背景噪音非常一致。使用 RNNoise 可以去除一些背景噪音。您可以将 a script in the Mozilla Discourse group 用作参考。所有录音文件都必须是简短的、22050 Hz、16 位的音频剪辑。

至于炉渣或地方口语——不确定;我怀疑只要单词的发音与所写的内容相匹配(即音素匹配),我就希望系统能够处理它。 Tacotron 能够处理/训练多种语言。

如果您没有资源来制作自己的录音,您可以使用目标语言的许可有声读物中的音频。这里有一个关于这个主题的教程:https://medium.com/@klintcho/creating-an-open-speech-recognition-dataset-for-almost-any-language-c532fb2bc0cf

教程有你:

  1. 从有声读物中下载音频。
  2. 使用 Audacity 删除所有无用的部分(例如介绍、前言等)。
  3. 使用Aeneas微调然后导出电子书音频和文本之间的强制对齐,这样可以逐句导出音频。
  4. 创建包含从音频到片段的映射的 metadata.csv 文件。 (帖子描述的格式似乎包含了额外的列,这些列实际上并不是训练所需要的,主要供 Mozilla 的在线数据库使用)。

然后,您可以将此数据集用于支持 LJSpeech 的系统,例如 Mozilla TTS