Torchtext的BucketIterator可以将所有批次填充到相同长度吗?

时间:2019-05-30 02:38:24

标签: python-3.x pytorch preprocessor torchtext

我最近开始使用torchtext替换我的粘合代码,并且遇到了一个问题,我想在体系结构中使用关注层。为此,我需要知道训练数据的最大序列长度。

问题在于torchtext.data.BucketIterator会逐批填充:

# All 4 examples in the batch will be padded to maxlen in the batch
train_iter = torchtext.data.BucketIterator(dataset=train, batch_size=4)

有什么方法可以确保将所有培训示例填充到相同的长度;即训练中的最高境界?

1 个答案:

答案 0 :(得分:0)

实例化torchtext.data.Field时,有一个名为fix_length的可选关键字参数,设置该参数时,它将定义将填充所有样本的长度。默认情况下未设置,这意味着需要灵活的填充。