如果我有一个拥有20个法术的巫师,每个法术都会做不同的事情,有时会造成直接伤害,有时会造成致残,有时会受到保护等。他与10个兽人战斗,我想确定施放法术的最佳顺序尽快杀死兽人。
Q学习对这个问题有帮助吗?
我可以从20个咒语的初始状态开始,然后每个接下来的状态将是我剩下的咒语,而最终状态将是巫师或兽人死亡。这有意义吗?还是我在尝试使用错误的AI算法进行工作?
答案 0 :(得分:0)
对我很好。您正在寻找改变状态的动作轨迹。即您的玩家和兽人的健康状况可以让您获得针对特定状态的奖励。即杀死兽人。