randomforest解释变异

时间:2018-06-04 16:22:32

标签: r linear-regression random-forest

我有以下数据框。我想知道哪些细菌在比较细菌的位置(分类)和pH(数值)时会有更多的贡献。

例如,最后我想说的是,在观察温度时,某个地方更常见某种细菌类型。

             Bacillus Lactobacillus Janibacter Brevibacterium Lawsonella     Location temperature
Sample1              2          30    164          8             21         48 bedroom    27
Sample2              0         211      0        996            195        108 bedroom   35
Sample3              1         938      1         21             38         43 pool   45
Sample4              0          95     17          1              4        334 pool   10
Sample5              0         192     91         25           1207       1659 soil    14
Sample6              0          12     33          6             12        119 soil   21
Sample7              0          16      3          0              0        805 soil    12

想法是运行randomforest来选择那些在查看位置和温度时更重要的特征(细菌)。

randomforest适合这个吗?当我运行follozinw命令时,我收到以下错误:

randomForest(Location+Temperature ~.,data=mydf)
Error in Location + Temperature : non-numeric argument to binary operator. 

从错误看,我不能一起使用连续和分类变量。我怎样才能解决这个问题 ?

例如,将数值温度变量转换为温度范围,因为分类变量可以解决吗?

事实上,我已经尝试过将数值温度转换为范围并粘贴位置,以便我有位置和温度的组合。

randomForest(Location_temperature ~.,data=dat)

我得到了我正在寻找的重要细菌清单。现在我怎么知道哪一个对我所在的模型使用所有网站的贡献更多?例如,如何检查您的重要变量(假设Bacillus是随机森林模型中最重要的变量)在池位置中很重要(它在池中解释了多少变化)??

希望很清楚......

0 个答案:

没有答案