您好,热情的软件开发人员, 我是语音识别(语音到文本)领域的新手,目前,我正在研究一个项目,我正在使用Mozilla通用语音数据集(德语语音数据集)-https://voice.mozilla.org/en。我从Mozilla的tsv文件集中获得了未分段的序列数据(mp3文件),其中包括声音文件的文本语句。现在,我计划实现CTC标签,以使声音文件与相应的文本句子匹配(这意味着每个字符(不是每个单词!)都需要与其在音频文件中的位置对齐)。如何使用python实施CTC标签?还是我可以在项目中学习和实施类似的方案? 在此先感谢!