我希望使用returnn训练新的lm以获取更多数据。但是我不知道tain和dev的确切形式,例如
/work/asr3/irie/data/librispeech/lm_bpe/librispeech-lm-norm.bpe.txt.gz
第二,我想知道为什么train_num_seqs等于40418260
,而librispeech trainig数据集只有281241
个句子。等待您的回答
答案 0 :(得分:0)
您可以下载LM模型here。
可以从official page下载LM火车数据。 准备该文件librispeech-lm-norm.bpe.txt.gz可能需要进行一些后期处理,但这应该很简单。
cf
函数使用some tool of us,但是您可以忽略它。只需将其删除。
此外,请参阅您发布here的GitHub问题中的讨论。