标签: neural-network nlp pytorch transformer seq2seq
我正在尝试关注pytorch's transformer tutorial。他们正在培训,然后评估seq-2-seq语言模型。
我注意到训练和评估时的批次大小(输入向量的长度)不同:
batch_size = 20 eval_batch_size = 10
我为什么要那样?如果可以的话,如何运作?它用零填充张量吗?他们在哪里做的?
谢谢!