假设我有一个成本函数,需要神经网络的所有输出(即在一定范围的训练时间步骤之间)来计算其成本。
这方面的一个例子是网络对未来培训数据的行为会影响成本。例如。网络可能会被训练成在赛道上驾驶模拟赛车,费用是完成时间或崩溃时间。
在tensorflow中实现这个目的的方法是什么?
答案 0 :(得分:1)
标准方法是使用回归神经网络(序列数据,您可以在一些或所有序列步骤中计算损失函数),或强化学习,在未来某个不确定点只有奖励(例如,在课程结束时,你可以获得更快的奖励。
这是一个关于在张量流中实现RNN的好教程:
以下是我发现的强化学习的介绍:
这些都是您可能用来解决问题的模型类型,具体取决于您希望如何构建问题。 Tensorflow是一个通用的数学库,提供自动区分和GPU支持,您可以在tensorflow之上构建任何这些模型。