Question

我有以下数据框。我想知道哪些细菌在比较细菌的位置（分类）和pH（数值）时会有更多的贡献。

例如，最后我想说的是，在观察温度时，某个地方更常见某种细菌类型。

             Bacillus Lactobacillus Janibacter Brevibacterium Lawsonella     Location temperature
Sample1              2          30    164          8             21         48 bedroom    27
Sample2              0         211      0        996            195        108 bedroom   35
Sample3              1         938      1         21             38         43 pool   45
Sample4              0          95     17          1              4        334 pool   10
Sample5              0         192     91         25           1207       1659 soil    14
Sample6              0          12     33          6             12        119 soil   21
Sample7              0          16      3          0              0        805 soil    12

想法是运行randomforest来选择那些在查看位置和温度时更重要的特征（细菌）。

randomforest适合这个吗？当我运行follozinw命令时，我收到以下错误：

randomForest(Location+Temperature ~.,data=mydf)
Error in Location + Temperature : non-numeric argument to binary operator.

从错误看，我不能一起使用连续和分类变量。我怎样才能解决这个问题？

例如，将数值温度变量转换为温度范围，因为分类变量可以解决吗？

事实上，我已经尝试过将数值温度转换为范围并粘贴位置，以便我有位置和温度的组合。

randomForest(Location_temperature ~.,data=dat)

我得到了我正在寻找的重要细菌清单。现在我怎么知道哪一个对我所在的模型使用所有网站的贡献更多？例如，如何检查您的重要变量（假设Bacillus是随机森林模型中最重要的变量）在池位置中很重要（它在池中解释了多少变化）??

希望很清楚......

randomforest解释变异

0 个答案: