训练 AI 算法以学习新功能

时间：2021-02-22 00:12:14

标签： tensorflow artificial-intelligence tensorflow2.0 reinforcement-learning

在研究 AI 时，我只看到 1 个训练期，然后您的模型学习并且非常完美。但是，如果数据没有像金融价格或玩游戏这样的真实模式怎么办。然后你的算法学习失败，你一无所有。

我对 openAI 以及他们如何教 AI 算法玩 Dota 2 进行了一些研究。其中一位程序员说，在周末，他教算法如何通过给予奖励来阻止小兵。他们是不是采用现有的模型，在角色站在小兵面前时添加一些奖励，然后让它撕裂，它会突然学会一项新技能？

没有关于如何做到这一点的信息！它更像是一个渐进式学习系统，而不是一次训练就完成了。请阐明这个过程以及我如何训练金融算法“特征”。

2 个答案:

答案 0 :(得分：1)

线上与线下学习

退后一步，从总体上了解机器学习，以了解在线学习和离线学习之间的差异。人工智能只是几乎完全基于神经网络的机器学习子集的一个奇特名称。您所说的“一个培训期”称为线下学习，而您要寻找的是在线学习。

<块引用>

在计算机科学中，在线机器学习是一种机器学习方法，其中数据按顺序可用，并用于在每个步骤更新未来数据的最佳预测器，而不是批量学习技术生成最佳通过一次学习整个训练数据集来预测器。 [https://en.wikipedia.org/wiki/Online_machine_learning]

关键是用新数据逐步教授您的模型，而不会让它忘记以前的知识。一个著名的玩具问题是具有变化参数的非平稳 multi-armed bandit，这是向学生介绍强化学习概念的常用方法。

强化学习

您可以在代理 - 环境模型中制定此问题，其中您的模型扮演代理的角色，根据环境的当前状态（股票价格）从一组操作（买入/卖出）中进行选择，同时最大化奖励功能（投资组合的价值）。最先进的 RL 算法也使用深度学习，因此它们被归类为人工智能，例如 openAI 的 Dota 机器人。

查看深度强化学习以了解更多信息。

答案 1 :(得分：0)

我相信这是结合强化学习完成的。这是一个随着时间的推移变得更好的。和 LTSM 来了解时间序列数据的偏差，至少在您预测价格时是这样。如果您想预测 sotck，这应该是一个很好的例子：https://www.kaggle.com/faressayah/stock-market-analysis-prediction-using-lstm 但请注意，这是乌托邦...