Question

我使用kmeans算法将我的实例分类到不同的组中。我在java中编写了一个简单的代码，它接收了arff文件，每个实例都被分类到一个不同的集群中，集群的数量最初由我给出。

我的输出以这种格式生成：

Instance 0-> Cluster 1
Instance 1-> Cluster 3      etc

有什么方法可以根据单个属性给出群集名称？

假设我的arff文件是：

@relation links        
@attribute num1 numeric        
@attribute num2 numeric        
@attribute num3 numeric        
@attribute data string    

@data

0,0,5,a    
1,0,0,b    
1,0,0,a    
1,1,0,a etc

我希望使用基于数据属性

的这些属性和名称来形成群集

所以输出应该是：

Instance 0-. cluster a    
Instance 1-> cluster b

关于如何做到这一点的任何想法？

Answer 1

不要试图将所有内容混合到一个过程中。

数据挖掘自然是一个多步骤的过程。一些重要步骤是预处理和后处理。

您希望对数据进行后期处理，并为每个群集报告最常见的标签。

基于k表示算法的属性命名簇

1 个答案: