如何在演员评论员中剪辑连续动作?

时间:2018-06-11 18:13:25

标签: artificial-intelligence reinforcement-learning

让我们说我们有一个有一些钱和一些股票的机器人。输入是过去30天的价格清单。它没有使用RNN,价格同时输入。输出是一个连续的动作,其中正数是买,负数是卖出股票的数量。如何限制动作空间,以便在它有多少股票(下限)和它有多少钱(上限)之间进行限制?

我应该剪掉它还是只是惩罚非法行为?哪个选项会产生最佳效果?

2 个答案:

答案 0 :(得分:0)

你可以惩罚非法行为,但根据我的经验,它并没有显示出对AI产生良好影响(还有一件事需要担心)。只需剪辑输出,如果它试图使用更多的钱,它就可以花掉所有的钱。如果它试图卖出比它更多的股票,那么它就会出售所有的股票。网络将了解当它尝试使用更多资源而不是很快时会发生什么,因此不会导致性能下降。

答案 1 :(得分:-1)

人工智能不能出售它没有的股票数量或购买的股票价值超过它所拥有的股票,所以你根本不应该允许这种交易。但是,如果您的AI查看趋势并且更喜欢在不久的将来更有价值的股票,那么第二天的房产总量很可能会更高。让我们说share1的起始值为s1,结束值为e1,而share2的起始值为s2,结束值为e2,那么在

的情况下

e1 / s1> e2 / s2

最好给share1一个更高的优先级。如果任何si / ei小于1,则AI不应该投入其中。

此外,你应该重视稳定性,如果一个股票的价值在过去几天持续增加,那么它就会有增长的趋势。如果共享的初始值小于结束值,但在最近几天其值减小,那么它可能是一个下降趋势,并且该份额不应该是优选的。这些规则需要实施,当它们发生冲突时,AI必须能够智能地选择其优先级。