使用Rapidminer对文本进行聚类

时间:2015-05-06 17:32:19

标签: cluster-analysis k-means rapidminer

我有云标签A,B,C。每个云标签由实体(单词)e,f,g ...

组成

我希望找到将云标签分隔成(大多数)独立集群的好词。例如:

字e表示Cloudtag A和B但不是C ...所以e是一个很好的分离器来获得2个集群。

现在有100.000个cloudtags和1.000.000个单词。我想做同样的事情来像K群集一样。 cloudtag可以属于两个集群,这并不重要。

我知道k-means,但我不知道如何将数据转换为数字多维数据。据我所知,kmeans需要数值点来创建聚类。

我也想使用快速采矿机作为软件,但任何算法,软件作为基本输入都非常有用。

提前致谢。

1 个答案:

答案 0 :(得分:1)

您没有描述群集。

但是"云标签"的功能(单词)选择分类

查看决策树,以及用于识别拆分的好功能的指标。