如果我第二次调用“学习”,会先重置模型,还是进一步调用“学习”来改善模型?
例如,将
Microsoft.Xaml.Behaviors.TriggerAction<T>
和
import gym
from stable_baselines.common.policies import MlpPolicy
from stable_baselines.common import make_vec_env
from stable_baselines import A2C
env = make_vec_env('CartPole-v1', n_envs=4)
model = A2C(MlpPolicy, env, verbose=1)
model.learn(total_timesteps=10000) # NOTE the number
产生一些相似的模型,对涉及的随机性取模吗?