标签: neural-network multilabel-classification loss
由于对每个类别的惩罚,大多数资源建议使用BCE丢失,但是我发现了一些示例,这些示例说明了CE丢失在多标签任务中的性能优于BCE丢失。例如:https://research.fb.com/wp-content/uploads/2018/05/exploring_the_limits_of_weakly_supervised_pretraining.pdf第5页,损失函数。
那么,一个与另一个相比有什么区别,优点和缺点?