在pytorch中为ASR加载librispeech

时间:2018-06-22 18:35:45

标签: python speech-recognition pytorch

我最近正在研究使用神经网络和CTC损失的自动语音识别机。但是,我要做的第一件事是准备用于训练模型的数据。由于Librispeech包含大量数据,因此一开始我将使用一个名为“ Mini LibriSpeech ASR语料库”的子集。 (http://www.openslr.org/31/)。另外,我还在使用Warn-ctc(https://github.com/SeanNaren/warp-ctc)的SeanNaren Pytorch绑定。

阅读音频文件及其相应的成绩单后,我使用Spicy包来计算每个音频文件的声谱图。当我将频谱图馈送到卷积层以进行特征提取时,就会出现问题。每个频谱图的长度都与其他频谱图不同。在对该问题进行更多搜索之后,我发现我应该将特定数量的帧传递给网络,但是要达到此目的,我需要用相应的字符(还包含空白符号)标记声音文件的每个帧。

有没有办法在python中做到这一点?

2 个答案:

答案 0 :(得分:2)

您的问题很广泛:您要照顾音频文件的文字记录吗?如果是这样,则它们位于每个目录的文本文件中,每行以文件名开头(不带扩展名)。

您可以在这里查看:https://github.com/inikdom/rnn-speech/blob/master/util/dataprocessor.py

特别是这种方法,它提供了一个音频文件列表以及Librispeech语料库的转录:

def get_data_librispeech(self, raw_data_path):
    text_files = self.find_files(raw_data_path, ".txt")
    result = []
    for text_file in text_files:
        directory = os.path.dirname(text_file)
        with open(text_file, "r") as f:
            lines = f.read().split("\n")
            for line in lines:
                head = line.split(' ')[0]
                if len(head) < 5:
                    # Not a line with a file desc
                    break
                audio_file = directory + "/" + head + ".flac"
                if os.path.exists(audio_file):
                    result.append([audio_file, self.clean_label(line.replace(head, "")), None])
    return result

注意:每个项目的第三个值始终为“无”,因为应该用另一种方法将其替换为音频长度。

您没有在音频的每个帧上标记相应的字符,CTC会通过处理全长音频和相应的笔录来处理它。

答案 1 :(得分:0)

在飞行计算中将pytorch nn与频谱图集成的最简单方法是使用nnAudio