关于GINI索引的一大疑问

时间:2020-07-26 22:58:02

标签: random-forest feature-selection gini

我对随机森林中的要素的GINI索引有疑问。 (1000个样本训练数据)

我拥有4500万个功能,这些功能的基尼系数最低,排在首位。 我得到3,800万个具有GINI索引:0的功能。
我得到了700万个具有GINI索引的功能:0-0.39

较低的GINI指数是更好的选择。我看到的是,GINI索引为0的3,800万个功能的分布如下:

trueTRUE:0
真:350
falseTRUE:650
falseFALSE:0

我想知道这种分布。我知道这是什么意思,它甚至不会预测一次,因为 trueTRUE falseFALSE 中确实发生了正确的预测? 如果我理解的话,更好的GINI索引:0应该是

trueTRUE:350
trueFALSE:0
falseTRUE:0
falseFALSE:650

这是我的全部问题。我在这里应该怎么想。 GINI索引为0的那三千八百万个特征是否可以在Random Forest中拆分,我在那里拥有的另外七百万个特征又如何呢? 我无法使用课程中的全部4500万个功能,应该进行功能选择。 GINI索引0很好,但是所有人都预测错了?

请帮助我解决这个问题!

谢谢

0 个答案:

没有答案
相关问题