分类器,其中属性依赖于群集ID

时间:2016-07-03 19:43:04

标签: machine-learning classification cluster-analysis k-means naivebayes

我有一个分类问题,我有一组构成我的数据点的块。我可以用于块分类的一个属性是标记,它基本上是另一个块的块编号。这些块还具有可用于分类的其他属性(大小)。我的数据集中的“tag”属性可用于如下分类 - 如果2个块具有属于同一群集的2个标记(块编号),则应将块或数据点聚集在一起。在这里,我事先不知道标签号将是什么簇号。

Block 1 [Tag 4] size 10
Block 2 [Tag 3] size 20
Block 3 [Tag 1] size 100
Block 4 [Tag 2] size 110

这里,基于Tag属性,Block 1和Block 2分别标记Block 3和4。另外,块3和块4分别标记块2和块1。因此,块1,块2可以属于簇id 1,块3和4可以属于簇id 2.此外,块1,2的大小比块3,4的大小更相似。分类的最终结果应该是

cluster id 1: Block 1 , Block 2
cluster id 2: Block 3 , Block 4

有没有办法对这些数据点进行分类?据我所知,朴素贝叶斯分类器认为每个属性彼此独立。这里,属性(标签)取决于未来事件(标记块号所属的集群ID)。我应该寻找什么形式/类别的聚类算法来解决这个问题? 我能想到的一种方法是使用其他属性(如大小)运行k-means,然后当我大致知道群集ID时,我将此群集ID添加到标记并将其用作分类属性。是否有其他更好的方法来编写分类器,其中属性依赖于结果集群本身? 任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:0)

这个目标没有意义。

您的四个块和标签形成一个循环:

1 -> 4 -> 2 -> 3 -> 1

为什么将它分成两组,1 + 2和3 + 4?

是有意义的

k-means和其他算法在这里没有多大帮助。你需要找到一些好的解决方案的正式属性;然后找到一个算法来优化这个属性。 k-means最小化了平方偏差 - 这对你的问题有什么帮助?