标签: python dictionary max reinforcement-learning
在此页面上,您将找到Value Iteration算法。 http://artint.info/html/ArtInt_227.html
我使用字典字典实现了表Q(s,a)。在Python中:
q = {s: {a: value}}
现在,问题是,我必须找到Q(s,a)列表的最大值,这真的很贵。我已经对我的代码进行了描述,并且在{内置方法max}上花费了近80%的时间。
有没有聪明的方法可以避免它?