测量树/树状图(Traminer)的可靠性

时间:2014-10-01 09:13:56

标签: sequence dendrogram robustness traminer

我使用TraMineR进行分析以测量空间使用序列之间的相似性(例如Rural(R)vs Urban(U):sequence example - > RRRRRUUURRUUU) 我的分析中的一个要求是在同一时刻对状态进行比较,因此我使用了汉明序列相似性。基于相似度矩阵,我创建了一个树状图,给出了各个序列之间的距离,有助于识别行为的相似性"在连续的空间使用中。 现在我正在寻找一种计算树的稳健性或可靠性的方法。有人知道我如何计算引导树(沿树枝指示引导值)?

亲切的问候,

约翰

1 个答案:

答案 0 :(得分:2)

fpc包有一个名为clusterboot的函数,可用于评估聚类过程的稳定性。它可以按以下方式使用:

library(TraMineR)
data(mvad)
##Use some sequence data to illustrate
mvad.alphabet <- c("employment", "FE", "HE", "joblessness", "school", "training")
mvad.labels <- c("employment", "further education", "higher education", "joblessness", "school", "training")
mvad.scodes <- c("EM", "FE", "HE", "JL", "SC", "TR")
mvad.seq <- seqdef(mvad, 17:86, alphabet = mvad.alphabet, states = mvad.scodes, labels = mvad.labels, xtstep = 6)
## Compute Hamming distances
ham <- seqdist(mvad.seq, method="HAM")
library(fpc)
cf2 <- clusterboot(as.dist(ham),clustermethod=disthclustCBI, k=5, cut="number", method="average")
print(cf2)

clusterboot帮助页面提供了以下指导来解释这些值。

  

有一些理论上的理由认为Jaccard相似度值小于或等于0.5作为解体群的指示&#34;,参见Hennig(2008)。通常,有效的稳定簇应产生0.75或更高的平均Jaccard相似度值。在0.6和0.75之间,群集可以被视为指示数据中的模式,但是哪些点应该属于这些群集是非常值得怀疑的。 Jaccard值低于平均值0.6,不应信任群集。 &#34;非常稳定&#34;群集的平均Jaccard相似度应为0.85及以上。

拥有稳定的群集过程并不意味着群集是好的。您可能还对群集质量测量感兴趣。在这种情况下,您可以使用WeightedCluster包,请参阅此处:http://mephisto.unige.ch/weightedcluster/