应用错误收集

例如，在多武装匪徒中：假设该算法已经找到了最好的机器。如果机器的配置突然改变怎么办？（更改奖励概率）算法会重新调整并找到最佳的新机器吗？