reinforcement-learning - 具有强化学习的 Transformer - Thinbug

具有强化学习的 Transformer

时间：2021-04-23 23:07:52

标签： reinforcement-learning transformer

我正在使用 RL 训练序列到序列转换器模型，演员和评论家都必须是转换器。但我不明白当转换器输出一个序列而不是一个单一的标量奖励时，我怎么能从评论家那里得到一个输出。

我使用的是来自 Huggingface 的预训练 t5。

它的代码在这里：

https://huggingface.co/transformers/_modules/transformers/modeling_t5.html

0 个答案:

没有答案