我有以下数据框。我想知道哪些细菌在比较细菌的位置(分类)和pH(数值)时会有更多的贡献。
例如,最后我想说的是,在观察温度时,某个地方更常见某种细菌类型。
Bacillus Lactobacillus Janibacter Brevibacterium Lawsonella Location temperature
Sample1 2 30 164 8 21 48 bedroom 27
Sample2 0 211 0 996 195 108 bedroom 35
Sample3 1 938 1 21 38 43 pool 45
Sample4 0 95 17 1 4 334 pool 10
Sample5 0 192 91 25 1207 1659 soil 14
Sample6 0 12 33 6 12 119 soil 21
Sample7 0 16 3 0 0 805 soil 12
想法是运行randomforest来选择那些在查看位置和温度时更重要的特征(细菌)。
randomforest适合这个吗?当我运行follozinw命令时,我收到以下错误:
randomForest(Location+Temperature ~.,data=mydf)
Error in Location + Temperature : non-numeric argument to binary operator.
从错误看,我不能一起使用连续和分类变量。我怎样才能解决这个问题 ?
例如,将数值温度变量转换为温度范围,因为分类变量可以解决吗?
事实上,我已经尝试过将数值温度转换为范围并粘贴位置,以便我有位置和温度的组合。
randomForest(Location_temperature ~.,data=dat)
我得到了我正在寻找的重要细菌清单。现在我怎么知道哪一个对我所在的模型使用所有网站的贡献更多?例如,如何检查您的重要变量(假设Bacillus是随机森林模型中最重要的变量)在池位置中很重要(它在池中解释了多少变化)??
希望很清楚......