应用错误收集

时间：2015-03-24 10:26:59

标签： artificial-intelligence reinforcement-learning supervised-learning

我有一个有向加权图数据结构，其中节点A和节点B之间的权重表示从节点A到节点B的转换的次数。

数据结构的目的是识别节点之间的行进模式。

为此，每次转换都会线性递增（请告诉我是否有更好的递增方法）

但是，如果用户偏离了他通常的行进路径，则必须分配对最可能路径的惩罚和对新采用路径的强化，以便根据模式的变化快速调整权重。从而使系统更快速地自学习。

分配此惩罚/强化的最佳方法是什么？我可以随意选择将重量减半/加倍，但这背后没有引用的理由，听起来更像是一时兴起。

答案 0 :(得分：0)

我宁愿给予新路径奖励更高的价值;可能会增加一个时间倒数的奖金。

我不建议惩罚可能的路径。它不是国家的一部分，也不是RL主要工作的方式。而是考虑资格痕迹。

另一方面，考虑改善状态的初始化，而不是调整/调整学习，这可能会更好;您的帖子显示您当前正在尝试应用有关数据的背景信息。