标签: reinforcement-learning transformer
我正在使用 RL 训练序列到序列转换器模型,演员和评论家都必须是转换器。但我不明白当转换器输出一个序列而不是一个单一的标量奖励时,我怎么能从评论家那里得到一个输出。
我使用的是来自 Huggingface 的预训练 t5。
它的代码在这里:
https://huggingface.co/transformers/_modules/transformers/modeling_t5.html