我有一个有向加权图数据结构,其中节点A和节点B之间的权重表示从节点A到节点B的转换的次数。
数据结构的目的是识别节点之间的行进模式。
为此,每次转换都会线性递增(请告诉我是否有更好的递增方法)
但是,如果用户偏离了他通常的行进路径,则必须分配对最可能路径的惩罚和对新采用路径的强化,以便根据模式的变化快速调整权重。从而使系统更快速地自学习。
分配此惩罚/强化的最佳方法是什么?我可以随意选择将重量减半/加倍,但这背后没有引用的理由,听起来更像是一时兴起。
答案 0 :(得分:0)
我宁愿给予新路径奖励更高的价值;可能会增加一个时间倒数的奖金。
我不建议惩罚可能的路径。它不是国家的一部分,也不是RL主要工作的方式。而是考虑资格痕迹。
另一方面,考虑改善状态的初始化,而不是调整/调整学习,这可能会更好;您的帖子显示您当前正在尝试应用有关数据的背景信息。