在具有相同功能的不同模型之间汇总功能重要性的最佳方法是什么?

时间:2018-12-11 18:15:19

标签: python statistics bioinformatics random-forest

我已经在相似的生物学数据集上训练了16种不同的模型,以预测约17000条生物超路径(特征)中特定疾病(目标)的发生。每个数据集具有相同的功能,但模型架构不同。此外,一半的数据集代表现实世界中的疾病发生率(约5%),而另一半则通过对阳性类别进行重采样得到平衡。还进行了其他一些数据转换,以便每个模型都将强调数据的不同属性。

这是所有模型和数据集中的要素索引的示例(来自具有重要特征顺序的数据框)。我100%确信,此特定功能是预测这种疾病的重要功能。但是您可以看到它在各个模型之间的差异。每行是不同模型的索引。

Feature Index

不出所料,尽管特征的重要性差异很大,但不同的模型正在吸收不同的信号,并且它们大多具有生化意义。

为了创建一个易于理解的产品,我已经显示了所有模型中按其谐波均值指数排序的特征。图片如下:

Feature and Harmonic Mean of Index

显示所有16个模型中的1(或2)个功能排序的更好方法是什么?

*功能重要性只是sklearn的model.feature_importance_产品(这是基尼重要性)。

0 个答案:

没有答案