我应该如何格式化/设置我的数据集/数据帧?和因素 - >数字问题

时间:2017-02-26 22:53:05

标签: arrays r excel

R的新手和这个论坛的新手,尝试搜索,希望我不会因为未能确定以前的答案而骚扰自己。

所以我得到了我的数据,我打算最后做一些glmm,但是那将来很远,首先我要做一些简单的glm / lm来学习什么我正在做

首先关于我的数据: 我有从2"一般区域"在该国的对面。

在这些一般区域中,大约有50个放置(在网格中,随机起始点)

每年都会重新审视Trakts,为期4年

一个道路包含16个样本图,我打算在trakt级别上工作,所以我使用每个trakt的16个样本图的平均值。

2x4x50 = 400行(实际数量为373行,当我删除了因地形等而无法采样的地块时)

我的excel文件中的数据目前如下划分:

rows = trakts

列=测量变量

我想要使用8-10列

简短示例现在数据的外观:

V1 - 预测变量,4个不同的列

V2 - 响应变量=比例数据,1-4列,具体取决于我最终测试的假设,

最后的glmm看起来像,(V2~V1 + V1 + V1,(面积​​,年份))

Area Year Trakt   V1               V2
A    2015   1     25.165651        0 
A    2015   2     11.16894652      0.1
A    2015   3     18.231           0.16
A    2014   1     3.1222           N/A
A    2014   2     6.1651           0.98
A    2014   3     8.651            1
A    2013   1     6.16416          0.16
B    2015   1     9.12312          0.44
B    2015   2     22.2131          0.17
B    2015   3     12.213           0.76
B    2014   1     1.123132         0.66
B    2014   2     0.000            0.44
B    2014   3     5.213265         0.33
B    2013   1     2.1236           0.268

我应该如何开始这个?

8个不同的文件?

由trakts嵌套(当我正在做glmms时,我现在还是稍后开始嵌套?)

我通过read.tables函数将数据加载到r中

如果我跑:sapply(dataframe,class) V1和V2是因子,其他一切都是整数

如果我运行sapply(dataframe,mode) 一切都是数字

所以最后我的实际问题,我一直在尝试进行常态测试(到目前为止只有trid shapiro)但我不断收到错误,暗示我的数据不是数字

另外,当我运行常态测试时,我是否只运行一列并在继续下一列之前对其进行评估,还是应该运行多列?整个数据集?

在我的情况下,我应该为每个区域和年份进行独立的正态性测试吗?

希望它最终不会变得混乱

最好的问候

0 个答案:

没有答案