标签: python machine-learning keras reinforcement-learning
我正在尝试根据公司的财务状况创建强化学习模型,以评估公司的价值。在评估中,我将使用财务趋势向代理商给予奖励。在培训期间,如果要提高某个季度末的估值(即股票价格),而实际股价上涨,我想给予奖励。我可以这样做吗?也就是说,为培训和评估保留单独的奖励系统?