基于特征分布的python示例数据集

时间:2019-09-25 17:22:11

标签: python cluster-analysis sampling probability-density

我陷入了未标记数据的分类问题。我遇到的问题之一是数据集不平衡,我想对其进行一些改进以减少聚类算法的工作量。

我可以使用的是,我们所知道的对集群很重要的功能之一是不平衡的。 在下图中,x轴是速度,您可以看到数据集主要包含慢速速度。 Imbalanced data set

是否可以基于此分布尝试更均等地采样数据集?像是从低速中选择较少的条目作为百分比,从高速中选择较高的百分比?

sklearn软件包似乎没有这种功能。您能帮忙找到相关的包裹吗?我很确定您的答案会比我有更多帮助。

问候 亚历克斯

0 个答案:

没有答案