我正在研究一个高维问题,该问题根据特定指标评估代码的可读性。问题在于没有“基本事实”,因此我需要对数据进行聚类(而不是分类),然后根据我的个人看法/解释为每个聚类分配值。>
在预处理步骤中,我想根据代码样本的大小(一维聚类)对代码样本进行拆分,以便独立于小代码片段评估大代码片段,反之亦然(选择不同的度量标准进行评估)。
我正在使用k-means
根据数据大小(总逻辑行)拆分数据。这是分布以及我得到的集群:
1a):簇如此紧密(分离)有多严重?
1b)我是否应该舍弃20左右的值,以便使群集更加分离。
2)第一个簇如此密集(小片段),而第二个簇却稀疏有多糟糕?