有人可以解释R中pvclust函数的输出吗?

时间:2015-12-09 05:57:29

标签: r machine-learning statistics hierarchical-clustering pvclust

在R的pvclust包中,有pvclust()函数。在函数帮助文件中提供的示例中,有以下函数:

boston.pp <- pvpick(boston.pv)

这应该打印出具有高p值的聚类。该函数的输出是:

$clusters
$clusters[[1]]
[1] "rm"   "medv"

$clusters[[2]]
[1] "zn"  "dis"

$clusters[[3]]
[1] "crim"    "indus"   "nox"     "age"     "rad"     "tax"     "ptratio" "lstat"  


$edges
[1] 3 5 9

我很难理解输出的含义,特别是因为我对聚类分析的技术背景非常有限。特别是,我不理解每个集群下名称向量的含义。有人可以帮我解释一下吗?谢谢!

1 个答案:

答案 0 :(得分:0)

https://cran.r-project.org/web/packages/pvclust/pvclust.pdf 描述了pvclust:

  

对于表示为(n×p)矩阵或数据帧的数据,我们假设数据是p个对象的n个观察值,这些对象将被聚类。第i行向量对应于对这些对象的第i次观察,第j列向量对应于第j个对象的样本,其大小为n

pvpick的输出:

  

cluster - 字符串向量列表。每个向量对应于每个群集中对象的名称。

您是否绘制了pvclust输出的树形图? pvpick clusters输出只列出内部点(pvclust将波士顿数据集中的每个视为一个点)在某些簇中,如果您绘制它,您将在树形图中看到它。 enter image description here