用于回归分析的R中QSAR数据的特征选择

时间:2015-03-08 21:54:49

标签: r cross-validation feature-selection

我正在为我的数据进行QSAR研究,在通过DRAGON软件运行我的结构并获取描述符之后,我留下了383个desriptors(删除常量和所有)。 现在我想对我的数据执行功能选择。其中n = 26且p = 383。那么我应该遵循什么方法呢? 我已经做了一些步骤Wise回归分析以及遗传算法研究,以获得7个非常合适的描述符的R2值为0.831。 但我想尝试其他方法,例如随机森林方法,PLS或PCA用于我的数据。我正在使用R。所以关于可以使用的包的任何想法。我已经在使用Caret和Boruta包了。 加上对交叉验证研究包的任何想法。我需要执行LOOCV和Bootstrap。

感谢您的帮助。

1 个答案:

答案 0 :(得分:0)

如果你使用随机森林或梯度提升算法,他们有时会有一个已经实现的功能,显示"的重要性"每个功能的得分。

基本上算法选择某个特征的频率。您可以使用所有功能运行算法,然后查看此分数。在例如XGBoost未使用的功能甚至不会出现在该列表中。因此,您可以使用它来测试哪些功能很重要。

由于您有许多功能,因此可以先使用随机的功能子集运行,然后再删除未使用或很少使用的功能。

我发现术语"重要性"在这里有点误导,因为杀死许多不重要的"功能可能会导致性能下降。但是,测试不可用的功能肯定是一个很好的策略。