我正在基于Graph网络的Reinforcement Learning环境中工作。我正在尝试实施Actor-Critic网络。在这里,我有两个遵循该政策的代理。在大多数情况下,我在运行具有特定学习率的特定情节的模型时,会遇到此错误(下面的代码显示错误)。
很少几次程序成功执行。但是很多时候它会抛出错误,指出“无效的多项式分布”。我正在使用分类分布,并且我认为我没有任何概率小于零的值。我正在粘贴发生错误的行。
我已经回答了由于相同类型错误而给出的答案(https://discuss.pytorch.org/t/categorical-probs-sample-generates-runtimeerror-invalid-argument-2-invalid-multinomial-distribution-encountering-probability-entry-0/27386),但我找不到任何解决方法。
def getAction2(self, state):
state = torch.FloatTensor(state)
logits, _ = self.model2.forward(state)
dist = F.softmax(logits, dim = -1)
probs = Categorical(dist)
return probs.sample()
错误
File "C:/Users/Prudhvinath.DESKTOP-09Q8801/sciebo/Thesis/JSSP/TwoAgents/20JobsTwoAgents.py", line 164, in getAction1
return probs.sample()
File "C:\Users\Prudhvinath.DESKTOP-09Q8801\Anaconda3\lib\site-packages\torch\distributions\categorical.py", line 107, in sample
sample_2d = torch.multinomial(probs_2d, 1, True)
RuntimeError: invalid multinomial distribution (encountering probability entry < 0)