在无监督学习中进行预处理

时间:2020-02-15 11:37:55

标签: cluster-analysis k-means preprocessor unsupervised-learning

我正在研究一个高维问题,该问题根据特定指标评估代码的可读性。问题在于没有“基本事实”,因此我需要对数据进行聚类(而不是分类),然后根据我的个人看法/解释为每个聚类分配值。

在预处理步骤中,我想根据代码样本的大小(一维聚类)对代码样本进行拆分,以便独立于小代码片段评估大代码片段,反之亦然(选择不同的度量标准进行评估)。

我正在使用k-means根据数据大小(总逻辑行)拆分数据。这是分布以及我得到的集群:

enter image description here

1a):簇如此紧密(分离)有多严重?

1b)我是否应该舍弃20左右的值,以便使群集更加分离。

2)第一个簇如此密集(小片段),而第二个簇却稀疏有多糟糕?

0 个答案:

没有答案
相关问题