在神经网络中分配惩罚的最佳方法?

时间:2015-03-24 10:26:59

标签: artificial-intelligence reinforcement-learning supervised-learning

我有一个有向加权图数据结构,其中节点A和节点B之间的权重表示从节点A到节点B的转换的次数。

数据结构的目的是识别节点之间的行进模式。

为此,每次转换都会线性递增(请告诉我是否有更好的递增方法)

但是,如果用户偏离了他通常的行进路径,则必须分配对最可能路径的惩罚和对新采用路径的强化,以便根据模式的变化快速调整权重。从而使系统更快速地自学习。

分配此惩罚/强化的最佳方法是什么?我可以随意选择将重量减半/加倍,但这背后没有引用的理由,听起来更像是一时兴起。

1 个答案:

答案 0 :(得分:0)

我宁愿给予新路径奖励更高的价值;可能会增加一个时间倒数的奖金。

我不建议惩罚可能的路径。它不是国家的一部分,也不是RL主要工作的方式。而是考虑资格痕迹。

另一方面,考虑改善状态的初始化,而不是调整/调整学习,这可能会更好;您的帖子显示您当前正在尝试应用有关数据的背景信息。