我正在使用ray RLlib库在五合一游戏中训练多代理训练器。这是零和环境,所以我遇到了代理商行为退化的问题(总是赢得第一个代理商的胜利,有5步获胜)。我有一个想法可以这样改变代理的学习率:首先训练第一个代理,然后将第二个作为随机,学习率等于零。在第一个特工学会如何赢得超过90%的游戏后,切换。然后重复 但是在构造函数中初始化后,我无法更改学习率。这可能吗?
def gen_policy(GENV, lr=0.001):
config = {
"model": {
"custom_model": 'GomokuModel',
"custom_options": {"use_symmetry": True, "reg_loss": 0},
},
"custom_action_dist": Categorical,
"lr": lr
}
return (None, GENV.observation_space, GENV.action_space, config)
def map_fn(agent_id):
if agent_id=='agent_0':
return "policy_0"
else:
return "policy_1"
trainer = ray.rllib.agents.a3c.A3CTrainer(env="GomokuEnv", config={
"multiagent": {
"policies": {"policy_0": gen_policy(GENV, lr = 0.001), "policy_1": gen_policy(GENV,lr=0)},
"policy_mapping_fn": map_fn,
},
"callbacks":
{"on_episode_end": clb_episode_end},
while True:
rest = trainer.train()
#here I want to change learning rate of my policies based on environment statistics
我尝试在True循环中将这些行添加到内部
new_config = trainer.get_config()
new_config["multiagent"]["policies"]["policy_0"]=gm.gen_policy(GENV, lr = 0.00321)
new_config["multiagent"]["policies"]["policy_1"]=gm.gen_policy(GENV, lr = 0.00175)
trainer["raw_user_config"]=new_config
trainer.config = new_config
没有帮助
答案 0 :(得分:0)
我偶然发现了一个相同的问题,并对RLlib的实现进行了一些研究。
在测试脚本中,看起来lr_schedule由一个间隔给出,例如
lr_schedule: [
[0, 0.0005],
[20000000, 0.000000000001],
]
之后,我检查了实现细节。
在ray/rllib/policy/torch_policy.py中,函数 LearningRateSchedule 实现了入口点。
定义lr_schedule时,将使用 PiecewiseSchedule 。
根据ray/rllib/utils/schedules/piecewise_schedule.py 中 PiecewiseSchedule 的实现,
endpoints (List[Tuple[int,float]]): A list of tuples
`(t, value)` such that the output
is an interpolation (given by the `interpolation` callable)
between two values.
E.g.
t=400 and endpoints=[(0, 20.0),(500, 30.0)]
output=20.0 + 0.8 * (30.0 - 20.0) = 28.0
NOTE: All the values for time must be sorted in an increasing
order.
这意味着学习率时间表包含两个参数:
时间步长t(int)和学习后学习率(float)
对于这些值之间的每个时间步长,均使用插值法。
可以通过参数 interpolation 在函数 PiecewiseSchedule 中指定插值,该参数默认为 _linear_interpolation
interpolation (callable): A function that takes the left-value,
the right-value and an alpha interpolation parameter
(0.0=only left value, 1.0=only right value), which is the
fraction of distance from left endpoint to right endpoint.
TL; DR;
因此,lr_schedule描述了线性插值的支持点(使用默认插值)。
另外在此Github Issue的训练过程中更改参数,最好的选择似乎是重新初始化训练器:
state = trainer.save()
trainer.stop()
#re_initialise trainer
trainer.restore(state)
答案 1 :(得分:0)
我发现这里的简单示例有点令人困惑。所以我想添加一个明确的答案。 为了确保其他用户不必查看代码,我添加了一个问题并想在此处添加我的答案: https://github.com/ray-project/ray/issues/15647
这是一个线性递减学习率直到某一点的测试示例。
lr_start = 2.5e-4
lr_end = 2.5e-5
lr_time = 50 * 1000000
config = {
"lr": lr_start,
"lr_schedule": [
[0, lr_start],
[lr_time, lr_end],
],
}