应用错误收集

基于特征分布的python示例数据集

时间：2019-09-25 17:22:11

标签： python cluster-analysis sampling probability-density

我陷入了未标记数据的分类问题。我遇到的问题之一是数据集不平衡，我想对其进行一些改进以减少聚类算法的工作量。

我可以使用的是，我们所知道的对集群很重要的功能之一是不平衡的。在下图中，x轴是速度，您可以看到数据集主要包含慢速速度。

是否可以基于此分布尝试更均等地采样数据集？像是从低速中选择较少的条目作为百分比，从高速中选择较高的百分比？

sklearn软件包似乎没有这种功能。您能帮忙找到相关的包裹吗？我很确定您的答案会比我有更多帮助。

问候亚历克斯

0 个答案:

没有答案