何时称为不平衡的数据集?

时间:2017-12-27 12:16:16

标签: machine-learning

我有一个数据集(基于百万歌曲数据集),我需要对其进行流派分类。以下是数据集中各种类型类的分布。

Genre   Count   %age

 1. Rock    115104  39.94364359
 2. Pop     47534   16.49535337
 3. Electronic  24313   8.437150809
 4. Jazz    16465   5.713720564
 5. Rap     15347   5.325749741
 6. RnB 13769   4.778148706
 7. Country 13509   4.687922933
 8. Reggae  8739    3.032627027
 9. Blues   7075    2.455182083
 10. Latin  7042    2.44373035
 11. Metal  6257    2.171317921
 12. World  4624    1.604630664
 13. Folk   3661    1.270448283
 14. Punk   3479    1.207290242
 15. New Age    1248    0.433083709

您是否会将此数据称为不平衡?我试过阅读但发现人们描述的数据集不平衡,其中一个类是99%的数据集,这是一个二元分类问题。不确定上述集合是否属于此类别。请帮忙。我无法使分类正确并且成为新手无法决定它是数据还是我的天真。这是我的假设之一,需要验证。

1 个答案:

答案 0 :(得分:0)

一般来说,不平衡数据集没有严格的定义,但一般来说,如果最小的类比最大的类小10倍,那么将其称为不平衡是一个好主意。

在您的情况下,最小的类实际上比最大的类小100倍,因此您甚至可以将其映射到您考虑的“99-1”以进行二进制分类。如果您只是要求区分New Age和Rock,那么您最终会遇到99-1的不平衡,因此您可能会遇到不平衡分类的典型问题 - 出现在您的项目中。