标签: python-3.x reinforcement-learning openai-gym
稳定基准允许您定义custom network architetcure;这会改变共享层,价值层,策略层及其各自大小的数量。
稳定基准也具有默认策略。 MlpLnLstmPolicy网络的默认网络体系结构是什么?此外,最好了解层之间的激活以及所使用的任何退出(如果适用)。我似乎在文档中找不到这些信息。
答案 0 :(得分:1)
类MlpLnLstmPolicy的定义为here。此类从here定义的LstmPolicy继承方法。
MlpLnLstmPolicy
LstmPolicy
tanh中使用的默认激活。您可以浏览LstmPolicy定义中提供的其他默认参数以获取更多信息。
tanh