我有大约700,000个观测值用于社会科学目的的排序和聚类。有没有人试图将R中的许多分类观察聚类?
我最初使用最佳匹配,但是当我观察到的次数较少时,使用TraMineR和WeightedCluster软件包(极好的软件包)。这些不适用于我的新数据。即使压缩非唯一序列,我仍然有大约70,000行和8列要聚类。 (每行是一个人)。我设法用gower.dist()函数创建了一个相异矩阵。
我通常会收到一些错误消息,例如 “不允许使用长向量” 当我尝试使用cluster软件包中的diana()和stats软件包中的hclust()之类的函数进行集群时。
我知道R中的许多函数都可能使用底层的.C和.Fortran代码,它们不接受超过一定长度的整数并且不容纳长向量。
有人尝试过使用接受长向量的方法进行聚类吗?我觉得将7万个条目与8个列聚在一起并不是一个大数目,但是我遇到了问题。