具有强化学习的 Transformer

时间:2021-04-23 23:07:52

标签: reinforcement-learning transformer

我正在使用 RL 训练序列到序列转换器模型,演员和评论家都必须是转换器。但我不明白当转换器输出一个序列而不是一个单一的标量奖励时,我怎么能从评论家那里得到一个输出。

我使用的是来自 Huggingface 的预训练 t5。

它的代码在这里:

https://huggingface.co/transformers/_modules/transformers/modeling_t5.html

0 个答案:

没有答案