标签: python cluster-analysis sampling probability-density
我陷入了未标记数据的分类问题。我遇到的问题之一是数据集不平衡,我想对其进行一些改进以减少聚类算法的工作量。
我可以使用的是,我们所知道的对集群很重要的功能之一是不平衡的。 在下图中,x轴是速度,您可以看到数据集主要包含慢速速度。
是否可以基于此分布尝试更均等地采样数据集?像是从低速中选择较少的条目作为百分比,从高速中选择较高的百分比?
sklearn软件包似乎没有这种功能。您能帮忙找到相关的包裹吗?我很确定您的答案会比我有更多帮助。
sklearn
问候 亚历克斯