我有一个由连续的,非正态分布的观测组成的环境数据集。我的目标是从测量的5个变量构造潜在变量。这种结构背后的理论似乎是合理的,但我坚持让这个想法正式化。
5个变量是强相关的(二元相关性.75-.95),据我所知,这是结构方程模型的问题?我用R中的'lavaan'软件包尝试了SEM,但我无处可去。那么我应该坚持使用SEM并尝试迭代模型,还是应该使用其他方法?
答案 0 :(得分:0)
由于您只假设一个潜在变量,我会说因素分析更适合您的情况。您可以使用R
函数factanal
。
答案 1 :(得分:0)
更多的是统计问题,而不是R问题,但不过......
考虑principal components analysis,它将一组相关变量转换为一组新的不相关(正交)变量(主成分,PC)。通常情况下,少数PC会解释原始数据集中的几乎所有可变性。使用R中的内置iris
数据集
data <- iris[,1:4] # iris dataset, excluding species column
pca <- prcomp(data,retx=T, scale.=T) # principal components analysis
PC <- pca$x # the principal components
summary(pca)
产生这个:
Importance of components:
PC1 PC2 PC3 PC4
Standard deviation 1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion 0.7296 0.9581 0.99482 1.00000
因此第一个主要组成部分PC1解释了73%的数据集变异,前两个(PC1和PC2)共同解释了96%的变化。
修改:在下方回复@ erska的评论/问题:
cor(data,PC)
产生这个:
PC1 PC2 PC3 PC4
Sepal.Length 0.8901688 -0.36082989 0.27565767 0.03760602
Sepal.Width -0.4601427 -0.88271627 -0.09361987 -0.01777631
Petal.Length 0.9915552 -0.02341519 -0.05444699 -0.11534978
Petal.Width 0.9649790 -0.06399985 -0.24298265 0.07535950
这表明PC1
与Sepal.Length
,Petal.Length
和Petal.Width
高度相关,与Sepal.Width
呈中度负相关。 PC4
与任何东西都没有高度相关,这并不奇怪,因为它主要由随机变异组成。这是PCA中的典型模式。
我认为可能存在对PCA工作方式的误解。如果您在原始数据集中有n
个变量,那么PCA 按照定义将识别n
个主成分,按照解释的变异部分排序(因此,PC1解释了最可变性等)。您可以告诉算法报告的数量(例如,仅报告PC1,或PC1和PC2等),但计算总是产生n
PC。