cluster-analysis - 在无监督学习中进行预处理

我正在研究一个高维问题，该问题根据特定指标评估代码的可读性。问题在于没有“基本事实”，因此我需要对数据进行聚类（而不是分类），然后根据我的个人看法/解释为每个聚类分配值。

在预处理步骤中，我想根据代码样本的大小（一维聚类）对代码样本进行拆分，以便独立于小代码片段评估大代码片段，反之亦然（选择不同的度量标准进行评估）。

我正在使用k-means根据数据大小（总逻辑行）拆分数据。这是分布以及我得到的集群：

1a）：簇如此紧密（分离）有多严重？

1b）我是否应该舍弃20左右的值，以便使群集更加分离。

2）第一个簇如此密集（小片段），而第二个簇却稀疏有多糟糕？