如何确定CCA有多少变量太多?

时间:2017-01-12 03:43:16

标签: vegan

我正在运行一些生态数据的CCA,包含约50个站点和数百个物种。我知道当你的解释变量数量接近你的样本数量时你必须要小心。我有23个解释变量,所以这对我来说不是问题,但我也听说使用太多解释变量可以开始“不约束”CCA。

是否有适当的解释变量数量的指导方针?到目前为止,我刚刚将它们全部绘制出来,然后删除了看似多余的那些(留给我8个)。我可以使用intertia值来帮助通知/证明这一点吗?

由于

1 个答案:

答案 0 :(得分:2)

这与询问"回归分析中有多少变量太多是相同的问题?"。不是"几乎相同",但完全相同:CCA是线性回归的拟合值的排序。在大多数严重的情况下,你可以过度适应。在CCA中,当CCA和(无约束)CA的第一特征值几乎相同且在第一维中看起来相似时,这是显而易见的(您可以使用Procrustes分析来检查这一点)。极端情况是残余变化会消失,但是在排序中你会关注第一维,并且约束可能比后来的约束轴或残差更早地丢失。更重要的是:您必须将CCA视为一种回归分析,并且对约束中的解释(独立)变量具有相同的态度。如果您没有先前的假设进行研究,那么您就会遇到回归分析模型选择以及多变量排序问题的所有问题,但这些问题都应该在除了stackoverflow之外的其他地方处理。