我有一个不平衡的数据集,其中2个类具有较低的示例,3个具有大量示例。是否有一种计算损失函数权重的标准方法,以便创建一个具有高精度的系统?
答案 0 :(得分:0)
退一步,让我指出两个可能的方向:
欠采样和过采样:此过程在数据集级别进行。目标是从代表性不足的类中生成新样本(过采样)。或者减少来自过度表达类的样本数量(欠采样)。请参阅以下链接+包:imbalanced-learn。
调整损失函数:此技术应用于分类器的损失函数,保证来自代表性不足的类的样本对整体损失贡献更多(相对而言)。请参阅此讨论How does the class_weight parameter in scikit-learn work?
此外,本文概述了 8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset。