有人可以给我关于如何处理Switchboard数据集以进行RETURNN训练的指示吗?我确实看到了BlissDataset类,该类似乎是为配电盘设计的,但是我不清楚在示例中给出的路径中应该包含哪些内容:
Example:
./tools/dump-dataset.py "
{'class':'BlissDataset',
'path': '/u/tuske/work/ASR/switchboard/corpus/xml/train.corpus.gz',
'bpe_file': '/u/zeyer/setups/switchboard/subwords/swb-bpe-codes',
'vocab_file': '/u/zeyer/setups/switchboard/subwords/swb-vocab'}"
总机数据集有几个带音频的文件夹,即swb1_d2 / data / *。sph和记录本swb1_LDC97S62 / swb_ms98_transcriptions / ** / * 我不太确定如何进行此操作以获取可用于训练RETURNN的数据集。
答案 0 :(得分:0)
在我们的小组(亚琛工业大学),我们使用在GitHub上发布的配置。如您所见,此人使用ExternSprintDataset
。该数据集使用
该实现使用Sprint(公开称为RWTH ASR(RASR),请参见here)作为外部工具(在子进程中运行)来处理数据(功能提取等)。 Sprint获得了Bliss XML文件,该文件描述了所有片段以及音频,音频偏移量和转录的路径,并且还获得了用于特征提取和其他功能的更多配置。有一个应该可用的开源版本的RASR,但要使它正常工作可能会涉及一些工作。
BlissDataset
被计划为对此的更简单替代。但是,实现不完整。另外,您仍然需要以某种方式自己生成Bliss XML(我们已经使用了一些内部脚本根据官方的LDC数据来准备它们)。
因此,不幸的是,还没有简单的方法。实际上,我认为最简单的方法是提出另一种自定义格式,该格式可能类似于LibriSpeechDataset
的实现,或者也许是相同的,然后可以重用LibriSpeechDataset
,或者至少部分。该数据集实现采用某种zip格式的数据,其中包含txt文件中的脚本和ogg或wav文件中的音频。它使用librosa进行MFCC特征提取(或其他特征类型)。我计划在Switchboard上实现该功能,然后重现结果,但是我还没有时间,也不确定何时才能实现。但是,如果您想自己尝试一下,我们将竭诚为您服务。出发点是看LibriSpeechDataset
并了解其格式。