为了计算OLS和分位数回归,我应该如何构建R中每人数据的多个观测结果?

时间:2014-04-01 14:15:34

标签: r matlab regression quantile

为了分析眼球跟踪实验的数据,我使用Matlab对数据进行了预处理,现在我想在R. OLS回归和分位数回归中进行回归分析。

对于这种情况下的单个测试人员" vp31"我开始是这样的:

    # load file
dikablis <- read.table("vp31.txt", sep="\t") # load it

# generate col names
colnames(dikablis) <- c("area","start","end","duration")

我对每个人都有成功的观察,正如提升的起始时间所反映的那样。确切地说,我的数据看起来像这样:

          area start  end duration
1    speed     0  200      200
2 attitude   200  400      200
3    speed   400  680      280
4 attitude   680 1200      520
5    speed  3840 4200      360
6 attitude  4200 5160      960

然后我尝试计算回归:

Call:
lm(formula = duration ~ area, data = dikablis)

Residuals:
   Min     1Q Median     3Q    Max 
-490.1 -218.8  -63.9  118.7 3829.9 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)    650.07      22.26  29.202  < 2e-16 ***
areafma       -344.35     103.73  -3.320 0.000953 ***
areahead_pfd  -226.19      51.39  -4.402 1.26e-05 ***
areaheight    -191.25      37.88  -5.049 5.81e-07 ***
areaspeed     -248.75      41.03  -6.063 2.29e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 379.1 on 640 degrees of freedom
Multiple R-squared:  0.0838,    Adjusted R-squared:  0.07807 
F-statistic: 14.63 on 4 and 640 DF,  p-value: 1.911e-11

希望我这样做直到这里?我印象深刻,因为R是聪明的并且自动虚拟编码分类变量感兴趣区域。但是有没有办法将参考水平设置为矢量的第一个元素,包括感兴趣的水平的名称?在这种情况下,我希望以FMA作为参考。

aois <- c("FMA", "speed", "attitude", "altitude", "head_pfd")

我还从Matlab中提取了具有测试人员姓名的向量,例如&gt;

vps <- c("vp31","vp2")

现在谈谈我的更大问题,我应该如何构建我的数据来计算多个测试人员的回归以及回归公式如何? (不要感到困惑,我只是将区域中的分类名称替换为数字,因为此示例是使用旧版本的代码生成的)

            V1               V2               V3                V4           V5              V6
1 Reg_Area_VP31 Reg_Statime_VP31 Reg_Endtime_VP31 Reg_Duration_VP31 Reg_Area_VP2 Reg_Statime_VP2
2             3                0              200               200            3               0
3             2               40              600               560            2              40
4             1              400              560               160            1             400
5             3              840             1280               440            3             840
               V7               V8
1 Reg_Endtime_VP2 Reg_Duration_VP2
2             200              200
3             600              560
4             560              160
5            1280              440

这是我的第一个stackoverflow请求,所以请不要苛刻我:)期待您的意见并提前感谢您的时间和帮助! 弗洛里安

在做了越来越多的研究后,我想知道我是否必须像这样构建我的数据?所以暂时的所有信息都排成一排?

       id diet exertype pulse time
1   1    1        1    85    1
2   1    1        1    85    2
3   1    1        1    88    3
4   2    1        1    90    1
5   2    1        1    92    2
6   2    1        1    93    3
7   3    1        1    97    1
8   3    1        1    97    2
9   3    1        1    94    3
10  4    1        1    80    1
11  4    1        1    82    2
12  4    1        1    83    3
13  5    1        1    91    1
14  5    1        1    92    2
15  5    1        1    91    3
16  6    2        1    83    1
17  6    2        1    83    2
18  6    2        1    84    3
19  7    2        1    87    1
20  7    2        1    88    2
21  7    2        1    90    3
22  8    2        1    92    1
23  8    2        1    94    2
...

1 个答案:

答案 0 :(得分:0)

好吧我自己找到了答案。在科学中,通常的做法是将观察结果列在行中。所以我从最后一段提出的建议导致了正确的方向;)