强化学习是否适合预测骰子的偏向?

时间:2019-05-15 03:21:54

标签: machine-learning

我想分析一个类似以下的问题。

问题:
您将获得N个骰子。
您将获得有关每个骰子的大量数据(例如表面信息,材料信息,重心位置等)。
骰子的功能会在每个游戏中随机生成,并以相同的速度,角度和初始位置发射。
掷骰子的结果是,如果得到6点,则得到1分,否则得到0点。
有10万场比赛的训练数据。 (骰子数据和比赛结果)
我想学习只选择获得6的概率大于1/6的骰子的规则。

对于含糊的问题陈述,我表示歉意。
首先,假设“ N个骰子”是我的错误。
骰子可以一一对应。

  1. 分布了一个具有随机特征的骰子
  2. 滚动时会记录是否有6个出来。

如果将“ [特征,结果]数据设为100,000”这一问题,就容易理解。

如果您得到的不是6,则将获得-1分。 如果您获得6分,您将获得+5分。

示例:
X:骰子数据的向量
f:我想知道的功能
f:X-> [0,1]
(如果结果> 0.5,我选择这个骰子。)

例如,一个骰子有1/5几率获得6的骰子,其非6分中有5分获得4分,所以我想知道立即给出奖励是否更好。 以100000场比赛后的积分数来确定奖励是很好吗?

我已经阅读了一些通用的强化学习方法,但是有一个状态转换的概念。但是,此游戏中没有状态转换。 (每个游戏都以1步结束,并且每个游戏都是独立的。)

我是一名学生,只是从头开始学习神经网络。如果您给我提示,它会有所帮助。谢谢。

顺便说一句,
我认为可以得出这样的结论:“最好选择距离重心最远的点为6的骰子。”

1 个答案:

答案 0 :(得分:0)

让我们首先谈谈强化学习。

问题设置,以提高普遍性的顺序:

  1. 多用途武装强盗-无状态,只是奖励未知的行动
  2. 上下文强盗-奖励还取决于某些上下文(状态)
  3. 强化学习(MDP)-动作也会影响下一个状态

所有这三个方面的共同点是,您希望随着时间的流逝而获得最大的回报,并且要在探索与开发之间进行权衡。您不仅获得了一个大型数据集。如果您想知道最佳动作是什么,则必须尝试几次并观察奖励。这可能会花费您一些本可以获得的奖励。

在这三个选项中,上下文强盗是与您的设置最接近的匹配项,尽管它与您的目标并不完全匹配。就像这样:给定骰子的某些属性(上下文),从一组可能的选择(动作,例如网络输出)中选择最好的骰子,以便获得最高的预期奖励。同时,您还在训练网络,因此有时必须选择不良或未知的属性来进行探索。

但是,不匹配有两个原因:

  1. 您已经拥有来自数以十万计的游戏的数据,并且似乎不希望将尝试和出错的费用降到最低以获取更多数据。您假设此数据具有代表性,因此无需勘探

  2. 您仅对预测感兴趣。您想将骰子分为“好掷6”和“坏”。如果您知道做出错误决定的成本,那么这些信息可以稍后用于在不同选择之间做出决定。如果您只是因为对骰子的特性感到好奇而只是学习 f(),那将是一个纯粹的统计预测问题。您不必担心短期或长期的回报。您不必担心任何操作的选择或后果。

因此,您实际上只有一个监督学习问题。您仍然可以通过强化学习来解决它,因为RL更通用。但是您的RL算法会浪费很多时间,以为它真的不能影响下一个状态。

监督学习

您的骰子实际上表现得像有偏见的硬币,这是伯努利审判,成功概率约为1/6。现在这是一个标准的分类问题:根据您的特征,预测骰子会带来良好匹配结果的可能性。

似乎您的“比赛结果”可以很容易地转换成相同骰子的掷​​骰次数和阳性结果(掷骰6)。如果每个骰子都有大量掷骰,则可以简单地对该骰子进行分类,并使用此类(连同物理属性)作为一个数据点来训练您的网络。

如果卷数较少,您可以做更多花哨的事情,但我不会介绍。 (如果您有兴趣,请查看beta分布以及交叉熵损失如何与神经网络一起工作。)