如何在更多数据上训练LM?

时间:2019-07-19 08:03:56

标签: returnn

我希望使用returnn训练新的lm以获取更多数据。但是我不知道tain和dev的确切形式,例如

/work/asr3/irie/data/librispeech/lm_bpe/librispeech-lm-norm.bpe.txt.gz

第二,我想知道为什么train_num_seqs等于40418260,而librispeech trainig数据集只有281241个句子。等待您的回答

1 个答案:

答案 0 :(得分:0)

您可以下载LM模型here

可以从official page下载LM火车数据。 准备该文件librispeech-lm-norm.bpe.txt.gz可能需要进行一些后期处理,但这应该很简单。

cf函数使用some tool of us,但是您可以忽略它。只需将其删除。

此外,请参阅您发布here的GitHub问题中的讨论。