标签: tensorflow keras deep-learning
在引擎盖下,是针对整个批次计算的单个梯度,还是每个训练对的梯度均值?我正在编写一个自定义损失函数,并且希望包含一个损失组件,该组件是该批次中汇总统计信息的函数。我想知道这是否与框架一致。我的实际用例很复杂,但以一个示例为例,我想让我的损失函数是类别是否正确(狗或猫),加上一个术语将批次中的狗和猫划分为50/50。将其编程到损失函数中很容易,但是渐变会做正确的事吗?