我有一个数据集(基于百万歌曲数据集),我需要对其进行流派分类。以下是数据集中各种类型类的分布。
Genre Count %age
1. Rock 115104 39.94364359
2. Pop 47534 16.49535337
3. Electronic 24313 8.437150809
4. Jazz 16465 5.713720564
5. Rap 15347 5.325749741
6. RnB 13769 4.778148706
7. Country 13509 4.687922933
8. Reggae 8739 3.032627027
9. Blues 7075 2.455182083
10. Latin 7042 2.44373035
11. Metal 6257 2.171317921
12. World 4624 1.604630664
13. Folk 3661 1.270448283
14. Punk 3479 1.207290242
15. New Age 1248 0.433083709
您是否会将此数据称为不平衡?我试过阅读但发现人们描述的数据集不平衡,其中一个类是99%的数据集,这是一个二元分类问题。不确定上述集合是否属于此类别。请帮忙。我无法使分类正确并且成为新手无法决定它是数据还是我的天真。这是我的假设之一,需要验证。
答案 0 :(得分:0)
一般来说,不平衡数据集没有严格的定义,但一般来说,如果最小的类比最大的类小10倍,那么将其称为不平衡是一个好主意。
在您的情况下,最小的类实际上比最大的类小100倍,因此您甚至可以将其映射到您考虑的“99-1”以进行二进制分类。如果您只是要求区分New Age和Rock,那么您最终会遇到99-1的不平衡,因此您可能会遇到不平衡分类的典型问题 - 出现在您的项目中。