我正在研究约5000个基因的数据集,这些基因在6种不同的限制性底物上都有表达。这些在数据框中,其中第一列提供营养素(响应变量),其他列提供每个不同基因的表达(预测变量)。我需要找到预测限制性底物的基因。首先,我应该使用ntree = 1000和6个mtry值(每个mtry值进行16次重复)调整算法。
我的数据框如下:
experiment Q0017 Q0045 Q0050 ---- YAL032C
A 0.18 -1.19 -2.43 1.00
G 0.73 -1.34 -1.74 -0.32
|
U 0.11 -0.33 0.63 0.12
我首先尝试使用以下命令找到最佳mtry值:
tuneRF(d3[2:5178], d3$experiment, ntreeTry=1000, stepFactor=1.5, improve=1e-5, trace=TRUE, plot=TRUE, doBest=FALSE)
但是,这给出了100%的OOB错误:
mtry = 71 OOB error = 100%
Searching left ...
mtry = 48 OOB error = 100%
0 1e-05
Searching right ...
mtry = 106 OOB error = 100%
0 1e-05
mtry OOBError
48.OOB 48 1
71.OOB 71 1
106.OOB 106 1
我对虹膜数据使用了相同的方法,然后得到了正确的结果。我究竟做错了什么?