如何在R中聚类顺序分类数据

时间:2015-08-31 05:31:54

标签: r cluster-analysis categorical-data

考虑一个数据集,用户可以在3个活动中进行选择,我们拥有选择前10个活动的数据。示例数据:

for (i in 1:10) 
{
  # sample from list of 3 strings using a set probability
  x <- sample( c("A", "B", "C"), 1000, replace=TRUE, prob=c(0.5, 0.3, 0.2) )
  # assign to variable created on the fly
  assign( paste("cat", i, sep=""), x )
}

first10 <- data.frame(cat1, cat2, cat3, cat4, cat5, cat6, cat7, cat8, cat9, cat10)

R中根据活动顺序对用户进行聚类的最佳方法是什么?

我查看了stackoverflow,最类似的问题询问如何在R中聚类分类数据(这是分析的一部分),但这本身并不能解释其中的顺序性质。数据。 R包是否适合这种分析?

1 个答案:

答案 0 :(得分:0)

寻找频繁的项目集挖掘而不是聚类。

大多数聚类方法用于连续数值数据,并假设一些向量场。他们考虑到每个职位。

然而,频繁模式可能仅是序列,序列可能表现出多个(或没有)这些模式的部分,并且模式之间可能存在间隙。所有这些属性通常都是可取的。