我希望能够做到最清楚。 假设我有一个包含10个变量的数据集,其中4个代表我称之为Y的某种现象。 另外6个代表了我称之为X的另一种现象。
这些变量(10)中的每一个包含37个单位。这些单位只是我的分析(调查)的受访者。 由于所有问题都基于李克特量表,因此它们是定性变量。对于所有这些,比例从0到7,但是有“-1”和“-2”值,其中缺少答案。因此,规模实际上从-2到7。
我想要做的是计算我的Y(在这种情况下包含4个变量,每个变量包含37个答案)和我的X(包含6个变量而不是相同数量的响应者)之间的回归。我知道,对于定性分析,我应该使用Anova而不是回归,尽管我已经在某处读过它甚至可能 做出回归。
到目前为止,我一直试图这样做:
> apply(Y, 1, function(Y) mean(Y[Y>0])) #calculate the average per rows (respondents) without considering the negative values
> Y.reg<- c(apply(Y, 1, function(Y) mean(Y[Y>0]))) #create the vector Y, thus it results like 1 variable with 37 numbers
> apply(X, 1, function(X) mean(X[X>0]))
> X.reg<- c(apply(X, 1, function(X) mean(X[X>0]))) #create the vector X, thus it results like 1 variable with 37 numbers
> reg1<- lm(Y.reg~ X.reg) #make the first regression
> summary(reg1) #see the results
Call:
lm(formula = Y.reg ~ X.reg)
Residuals:
Min 1Q Median 3Q Max
-2.26183 -0.49434 -0.02658 0.37260 2.08899
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.2577 0.4986 8.539 4.46e-10 ***
X.reg 0.1008 0.1282 0.786 0.437
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.7827 on 35 degrees of freedom
Multiple R-squared: 0.01736, Adjusted R-squared: -0.01072
F-statistic: 0.6182 on 1 and 35 DF, p-value: 0.437
但正如你所看到的,虽然我没有使用由4个变量和X乘以6组成的Y,而我也没有考虑负值,但我得到的分数非常低,因为我的R ^ 2。
如果我与anova合作而不是我有这个问题:
> Ymatrix<- as.matrix(Y)
> Xmatrix<- as.matrix(X) #where both this Y and X are in their first form, thus composed by more variables (4 and 6) and with negative values as well.
> Errore in UseMethod("anova") :
no applicable method for 'anova' applied to an object of class "c('matrix', 'integer', 'numeric')"
说实话,前几天我成功使用了anova,但遗憾的是我不记得我是怎么也没有把命令保存在任何地方。
我想知道的是:
答案 0 :(得分:0)
如果您的响应(Y)和预测变量(x)是数字刻度,则可以使用回归。 如果您的响应(Y)是数字刻度且预测变量(x)是分类标度,则可以使用ANOVA。
建议:在使用回归方法之前,您必须使用有效性和可靠性测试来了解答案(指标)对于响应和预测器是否有效且可靠。
答案 1 :(得分:0)
我不赞同Denny的回答。无论您拥有何种类型的数据,都可以使用任何一种方法。如果您有分类数据,可以使用虚拟编码将其表示为数字。例如,给定具有3个选项的特征x,例如1,2和3,您可以通过创建3个新的附加变量x1,x2和x3将其编码为数字。如果x为1,则x1为1,x2为0,x3为0。如果缺少x,则三个新的x值都将为零。
在你的情况下,我会建议你首先尝试回归,因为你拥有的功能数量很多,并且因为它往往是直截了当的。随着特征数量的增加,ANOVA会变得复杂。假设您的数据满足两种技术所需的假设,两者都应该有效。