来自一组多线性变量的潜变量

时间:2013-11-29 12:41:12

标签: r correlation factor-analysis r-lavaan

我有一个由连续的,非正态分布的观测组成的环境数据集。我的目标是从测量的5个变量构造潜在变量。这种结构背后的理论似乎是合理的,但我坚持让这个想法正式化。

5个变量是强相关的(二元相关性.75-.95),据我所知,这是结构方程模型的问题?我用R中的'lavaan'软件包尝试了SEM,但我无处可去。那么我应该坚持使用SEM并尝试迭代模型,还是应该使用其他方法?

2 个答案:

答案 0 :(得分:0)

由于您只假设一个潜在变量,我会说因素分析更适合您的情况。您可以使用R函数factanal

答案 1 :(得分:0)

更多的是统计问题,而不是R问题,但不过......

考虑principal components analysis,它将一组相关变量转换为一组新的不相关(正交)变量(主成分,PC)。通常情况下,少数PC会解释原始数据集中的几乎所有可变性。使用R中的内置iris数据集

data <- iris[,1:4]                      # iris dataset, excluding species column
pca  <- prcomp(data,retx=T, scale.=T)   # principal components analysis
PC   <- pca$x                           # the principal components
summary(pca)

产生这个:

Importance of components:
                          PC1    PC2     PC3     PC4
Standard deviation     1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion  0.7296 0.9581 0.99482 1.00000

因此第一个主要组成部分PC1解释了73%的数据集变异,前两个(PC1和PC2)共同解释了96%的变化。

修改:在下方回复@ erska的评论/问题:

cor(data,PC) 

产生这个:

                    PC1         PC2         PC3         PC4
Sepal.Length  0.8901688 -0.36082989  0.27565767  0.03760602
Sepal.Width  -0.4601427 -0.88271627 -0.09361987 -0.01777631
Petal.Length  0.9915552 -0.02341519 -0.05444699 -0.11534978
Petal.Width   0.9649790 -0.06399985 -0.24298265  0.07535950

这表明PC1Sepal.LengthPetal.LengthPetal.Width高度相关,与Sepal.Width呈中度负相关。 PC4与任何东西都没有高度相关,这并不奇怪,因为它主要由随机变异组成。这是PCA中的典型模式。

我认为可能存在对PCA工作方式的误解。如果您在原始数据集中有n个变量,那么PCA 按照定义将识别n个主成分,按照解释的变异部分排序(因此,PC1解释了最可变性等)。您可以告诉算法报告的数量(例如,仅报告PC1,或PC1和PC2等),但计算总是产生n PC。