最近我陷入了政策梯度问题。我被要求实现一种算法,其中损失函数定义如下:
Baz
(像往常一样, {(x_i,y_i)} = {(输入,标签)} 在经典分类问题中,函数 h < / em>,在我的情况下,可以解释为神经网络)
这似乎非常熟悉正常的交叉熵 损失函数,除了每个项乘以权重R_i。问题出现了,因为我无法找到任何内置的 tensorflow 损失函数,这使我可以为每个样本分配权重。说明告诉我使用
@Inject
public TestExtender(Foo foo, Baz baz) {}
我发现在我的情况下不适用。你们有什么想法吗?提前谢谢!
有关更多详细信息,任务是实施深度强化学习算法,此处 x_i =状态/观察,y_i =操作,和 h 神经网络接受培训以接近政策职能