特征选择:随机森林与多元线性回归

时间:2021-06-10 03:01:14

标签: statistics data-science linear-regression random-forest olsmultiplelinearregression

我正在从事一个关于 python 的项目,我必须在其中找到推动播放列表成功的功能。我有一些变量,比如歌曲数量、专辑数量、艺术家数量、流派数量、情绪数量以及流派数量 + 情绪。歌曲、专辑、艺术家等多达数千,而情绪/流派的数量是0,1、​​2或3,流派+情绪的数量在0-6之间。因变量是每个播放列表的流/用户。

我无法解释某些模型。当我使用多元线性回归时,流派数量、情绪和流派+情绪的系数最大(大约 11、-15 和 -3),而其他较大的范围变量的系数为千分之一(5e-3, 3e-3 等)。

然后,如果我在相同的特征上运行随机森林模型(我可以用变量范围来做这个吗?)最重要的特征是歌曲、专辑和艺术家的数量,值在 0.26 之间的十分之一-.33 并且流派/情绪特征为千分之一。

我怎么知道其中哪一个是正确的解释?

0 个答案:

没有答案